데이터 라벨링
용어 이름 복사
데이터약 1분 읽기
머신러닝의 지도 학습을 위해 데이터에 정답(레이블)을 부여하는 작업으로, 모델 품질의 토대가 됩니다.
다른 이름
Data Labeling데이터 레이블링Annotation
상세 설명
데이터 라벨링(Data Labeling)은 머신러닝 지도 학습에 쓸 데이터에 정답(레이블)을 붙이는 작업입니다. 이미지에 물체 위치를 박스로 표시하거나, 텍스트에 감정·범주를 지정하거나, 음성을 글로 옮기는 일이 대표적입니다. 모델 성능은 학습 데이터의 품질에 크게 좌우되므로, 레이블의 정확성과 기준의 일관성이 모델 정확도를 결정합니다. 크라우드소싱, 사내 전문가 라벨링, 모델이 1차로 붙인 뒤 사람이 검수하는 반자동 방식 등이 쓰이며, Scale AI·Labelbox 같은 전문 플랫폼이 작업 관리와 품질 검증을 지원합니다.
도구 선택에서 중요한 이유
라벨링 도구의 품질 관리 기능은 곧 모델 정확도로 이어집니다. 여러 작업자가 일관된 기준으로 레이블을 붙이는지, 검수·합의 절차가 있는지, 작업 진척과 정확도를 추적할 수 있는지가 핵심입니다. 데이터 보안이 중요하다면 외부 크라우드 대신 사내에서 라벨링할 수 있는지도 따져야 합니다.
도구를 고를 때 확인할 점
- 작업자 간 레이블 합의·검수 같은 품질 관리 기능이 있는가
- 다룰 데이터 형식(이미지·텍스트·음성)을 지원하는가
- 모델이 1차 라벨을 제안하는 반자동 기능으로 속도를 높일 수 있는가
- 민감 데이터의 사내 라벨링·접근 통제를 지원하는가
실제 적용 예시
자율주행 데이터셋을 만들 때, 수만 장의 도로 이미지에 차량·보행자·신호를 박스로 표시합니다. 작업자마다 기준이 다르면 모델이 혼란스러워지므로, 합의 검수와 가이드라인을 제공하는 라벨링 도구를 써서 레이블 일관성을 확보합니다.
관련 용어
머신러닝
데이터를 통해 스스로 학습하고 패턴을 발견하여 최적의 예측이나 의사결정을 수행하는 AI의 핵심 기술입니다. 명시적인 프로그래밍 없이도 방대한 데이터에서 통계적 법칙을 추출하며, 현대 인공지능이 복잡한 문제를 해결하는...
딥러닝다층 인공 신경망을 통해 데이터의 복잡한 비선형 관계를 학습하는 머신러닝의 한 분야입니다. 데이터에서 특징(Feature)을 스스로 추출하며 이미지 인식, 자연어 처리, 생성형 AI 등 고도의 인지 능력이 필요한 분...
합성 데이터 (Synthetic Data)AI 알고리즘이나 통계적 모델을 통해 실제 세계의 측정값이 아닌 인위적으로 생성된 데이터로, 원본 데이터의 통계적 특성과 패턴을 유지하여 분석 및 모델 학습에 활용됩니다.