전사 (Transcription)

AI 개념
1분 읽기

음성이나 영상 속 말소리를 듣고 그대로 글로 옮겨 적는 작업을 뜻합니다. 과거에는 사람이 직접 받아쓰기를 했으나, 현재는 STT 기술로 회의·인터뷰·강의 녹음을 자동으로 텍스트화하여 검색과 요약의 토대가 됩니다.

다른 이름
전사Transcription받아쓰기음성 텍스트화

상세 설명

전사(Transcription)는 음성 언어를 문자 언어로 변환해 기록하는 과정을 말합니다. 회의록 작성, 자막 제작, 법률·의료 기록 등에서 오래전부터 수행돼 온 작업으로, 전통적으로는 속기사나 타이피스트가 녹음을 반복 청취하며 수작업으로 진행했습니다. 최근에는 STT(Speech-to-Text) 엔진이 이 과정을 자동화하여, 긴 녹음도 수 분 내에 초안 텍스트로 바꿔 줍니다. 다만 자동 전사 결과는 전문 용어나 동음이의어, 겹쳐 말하는 구간에서 오류가 생길 수 있어, 정확도가 중요한 분야에서는 사람이 다시 듣고 고치는 검수 단계를 거칩니다. 화자가 여러 명일 때는 화자 분리와 결합해 누가 어떤 말을 했는지까지 함께 기록합니다.

도구 선택에서 중요한 이유

전사 정확도는 회의록 자동화의 출발점입니다. 인식률이 낮으면 이후 요약과 검색 품질이 함께 떨어지므로, 한국어 경어체와 전문 용어 인식 성능을 먼저 확인해야 합니다. 또한 자동 전사 초안을 사람이 빠르게 고칠 수 있는 교정 화면, 타임스탬프 연동, 화자 분리와의 결합 여부가 실제 업무 효율을 좌우합니다.

확인할 점

  • 한국어 경어체와 동음이의어를 정확히 받아쓰는가?
  • 오인식 구간을 음성과 함께 빠르게 고칠 수 있는 교정 화면이 있는가?
  • 타임스탬프와 화자 분리가 전사 결과에 함께 표시되는가?
  • TXT·SRT·DOCX 등 필요한 형식으로 내보낼 수 있는가?

활용 예시

클로바노트나 다글로 같은 서비스는 회의 녹음을 업로드하면 전체 발언을 텍스트로 전사한 뒤, 그 결과를 바탕으로 요약과 키워드를 자동으로 정리합니다. 유튜브의 자동 자막 역시 영상 음성을 전사해 시청자에게 자막으로 제공하는 사례입니다.

헷갈리기 쉬운 용어

STT (Speech-to-Text)

음성을 텍스트로 바꾸는 핵심 엔진으로, 전사는 이 기술을 활용한 작업 전체를 가리킵니다.

요약 (Summarization)

전사로 만든 전체 텍스트에서 핵심만 추려 짧게 정리하는 후속 단계입니다.

관련 용어

STT화자 분리 (Speaker Diarization)요약 (Summarization)