데이터 라벨링

데이터
1분 읽기

머신러닝의 지도 학습을 위해 데이터에 정답(레이블)을 부여하는 작업으로, 모델 품질의 토대가 됩니다.

다른 이름
Data Labeling데이터 레이블링Annotation

상세 설명

데이터 라벨링(Data Labeling)은 머신러닝 지도 학습에 쓸 데이터에 정답(레이블)을 붙이는 작업입니다. 이미지에 물체 위치를 박스로 표시하거나, 텍스트에 감정·범주를 지정하거나, 음성을 글로 옮기는 일이 대표적입니다. 모델 성능은 학습 데이터의 품질에 크게 좌우되므로, 레이블의 정확성과 기준의 일관성이 모델 정확도를 결정합니다. 크라우드소싱, 사내 전문가 라벨링, 모델이 1차로 붙인 뒤 사람이 검수하는 반자동 방식 등이 쓰이며, Scale AI·Labelbox 같은 전문 플랫폼이 작업 관리와 품질 검증을 지원합니다.

도구 선택에서 중요한 이유

라벨링 도구의 품질 관리 기능은 곧 모델 정확도로 이어집니다. 여러 작업자가 일관된 기준으로 레이블을 붙이는지, 검수·합의 절차가 있는지, 작업 진척과 정확도를 추적할 수 있는지가 핵심입니다. 데이터 보안이 중요하다면 외부 크라우드 대신 사내에서 라벨링할 수 있는지도 따져야 합니다.

도구를 고를 때 확인할 점

  • 작업자 간 레이블 합의·검수 같은 품질 관리 기능이 있는가
  • 다룰 데이터 형식(이미지·텍스트·음성)을 지원하는가
  • 모델이 1차 라벨을 제안하는 반자동 기능으로 속도를 높일 수 있는가
  • 민감 데이터의 사내 라벨링·접근 통제를 지원하는가

실제 적용 예시

자율주행 데이터셋을 만들 때, 수만 장의 도로 이미지에 차량·보행자·신호를 박스로 표시합니다. 작업자마다 기준이 다르면 모델이 혼란스러워지므로, 합의 검수와 가이드라인을 제공하는 라벨링 도구를 써서 레이블 일관성을 확보합니다.

관련 용어

머신러닝딥러닝합성 데이터 (Synthetic Data)