화자 분리 (Speaker Diarization)

AI 개념

약 1분 읽기

여러 사람이 함께 말하는 녹음에서 '누가 언제 말했는지'를 구간별로 구분해 내는 기술입니다. 발화자가 여럿인 회의에서 각 발언을 화자별로 나누어, 전사 결과를 대화록 형태로 정리할 수 있게 합니다.

다른 이름

화자분리화자 분리Speaker Diarization화자 구분스피커 분리

상세 설명

화자 분리(Speaker Diarization)는 하나의 오디오 안에 섞여 있는 여러 화자의 음성을 분석해, 시간 구간마다 발화자를 식별하고 라벨을 붙이는 기술입니다. 음성을 짧은 구간으로 나눈 뒤 각 구간의 음성 특징을 추출하고, 비슷한 특징끼리 묶어 같은 화자로 군집화하는 방식이 일반적입니다. STT가 '무엇을 말했는가'를 텍스트로 옮긴다면, 화자 분리는 '누가 말했는가'를 더해 회의록을 화자별 대화록으로 만들어 줍니다. 발화가 겹치거나 화자 수를 미리 알 수 없는 상황, 비슷한 음색의 화자가 많을수록 난도가 높아지며, 이 정확도가 회의록 자동화의 완성도를 좌우하는 지표가 됩니다.

도구 선택에서 중요한 이유

회의록처럼 발화자가 여럿인 음성에서는 전사 정확도만큼이나 화자 분리 성능이 중요합니다. 화자 라벨이 정확해야 누가 어떤 결정을 말했는지 추적할 수 있고, 이후 화자별 발언 요약이나 액션 아이템 정리가 가능해집니다. 화자 수 자동 추정, 겹쳐 말하는 구간 처리, 발언자 이름 지정 기능이 실제 활용도를 가릅니다.

확인할 점

화자 수를 미리 지정하지 않아도 자동으로 추정하는가?
두 사람이 동시에 말하는 겹침 구간을 구분해 내는가?
분리된 화자에 실제 이름을 붙이고 수정할 수 있는가?
전사·타임스탬프와 화자 라벨이 한 화면에서 연동되는가?

활용 예시

회의 녹음을 클로바노트에 올리면 발언을 화자 A·B·C로 나누어 대화록처럼 정리해 주고, 사용자가 각 화자에 참석자 이름을 지정할 수 있습니다. 콜센터 상담 분석에서도 상담사와 고객의 발화를 분리해 각각의 응대 품질을 따로 평가하는 데 쓰입니다.

헷갈리기 쉬운 용어

전사 (Transcription)

음성을 글로 옮기는 작업으로, '무엇을 말했는가'에 해당합니다.

화자 분리

그 발언이 '누구의 것인가'를 구간별로 나누어 라벨을 붙이는 단계입니다.

참고 링크

전체 용어 목록