머신러닝 모델이 학습할 문제와 정답 중 데이터의 레이블이 정답에 해당한다. 이미지가 주어지고 개인지 고양이인지 맞추라고 하면, 이미지가 문제이고 개라는 레이블이 정답이 되는 것이다. 이 두 문장을 작성하면서도 라벨이라고 쓰고 레이블로 고치고 있는데.. 그냥 같은뜻이긴 하다만 책에 나온 단어인 레이블로 통일하겠다. 국립 국어원도 라벨 레이블 둘다 된다고는 한다.
'label'의 외래어 표기
https://www.korean.go.kr/front/mcfaq/mcfaqView.do?mn_id=217&mcfaq_seq=8974
여튼, 머신러닝 모델은 주어진 문제와 정답으로 구성된 데이터 셋을 통해 학습하기 때문에 지도 학습에서는 그냥 문제만 준다고 해서 학습이 되지 않는다. 이미지 분류라면 이미지가 문제, 분류결과가 정답 즉 레이블이 될 것이고 어느 위치에 있는지, 어느위치에 뭐가있는지와 같이 모델에 따라 맞는 레이블을 선택하고 데이터를 구성해야 한다. 우리가 있는 현실 세계에는 문제가 되는 RAW 데이터의 수집이 용이하지만 여기에 정답이 뭔지 정확하게 지정하는 것은 사람이 직접 해야 하므로 비용이 높다. 이 때 정답들을 데이터화하는 것을 레이블링(Labeling)이라 한다.
딥러닝을 자동화 하는 솔루션이 클라우드 컴퓨팅 회사들로부터 상품화되고 있고 여기에는 이 레이블링 자동화도 있다. 물론 완전 무에서 유를 창조할 정도로 하나부터 열까지 다 해주는 것은 아니고, 하나를 하면 여섯정도 해주고 보완해서 여덟까지하면 열을 마져 채워주는 형태이다. 하지만 이런 방법이 불가능한 특수 분야도 있는데 주로 의료쪽 같이 정답에 대한 신뢰도가 매우 높아야만 하는 분야들이다. (데이터 레이블을 의사 5명이 교차 검증하는게 기본이니..)
참고자료
https://www.samsungsds.com/kr/insights/techtoolkit_2021_auto_labeling.html
'Computer Science > Machine Learning' 카테고리의 다른 글
[2] 머신러닝 기본개념 - 훈련/테스트 데이터 (Training and Test dataset) (0) | 2022.12.08 |
---|---|
[1] 머신러닝 기본개념 - 가설공간 (Hypothesis Space) (0) | 2022.12.08 |
[0] The Quest for Machine Learning (0) | 2022.12.07 |