STT

AI 개념
1분 읽기

음성 신호를 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 AI 기술입니다. 최근에는 Whisper, Gemini 등 딥러닝 모델을 통해 소음 환경에서도 높은 정확도를 제공하며 자동 자막, 회의록 작성 등에 활용됩니다.

다른 이름
음성 인식Speech-to-TextASR자동 음성 인식

상세 설명

STT(Speech-to-Text)는 사람의 음성을 실시간 또는 비실시간으로 텍스트로 변환하는 인공지능 기술로, 자동 음성 인식(ASR)이라고도 불립니다. 과거의 통계적 모델에서 벗어나 현재는 OpenAI의 Whisper, Google의 Chirp와 같은 신경망 기반 엔드투엔드(End-to-End) 모델이 주류를 이룹니다. 이 기술은 다국어 인식, 화자 분리(Speaker Diarization), 실시간 스트리밍 처리 등에서 비약적인 발전을 이루었습니다. 특히 LLM과 결합하여 단순한 텍스트 변환을 넘어 회의 요약, 감정 분석, 외국어 번역 등으로 서비스 영역이 확장되고 있으며, 보안이 중요한 기업을 위한 온프레미스 구축형 모델도 활발히 도입되고 있습니다.

도구 선택에서 중요한 이유

STT 도구 선택 시 핵심 지표는 단어 오류율(WER, Word Error Rate)입니다. 단순 인식률 외에도 배경 소음 제거 능력, 전문 용어(도메인 용어) 인식 성능, 그리고 지연 시간(Latency)을 고려해야 합니다. 특히 화자가 여러 명인 회의 상황에서는 각 화자를 정확히 구분해내는 '화자 분리' 성능이 업무 자동화의 수준을 결정짓습니다.

확인할 점

  • 한국어 특유의 경어체 및 동음이의어 인식 정확도가 높은가?
  • 화자 분리(Speaker Diarization) 기능을 지원하는가?
  • 보안을 위해 로컬 환경(On-premise) 설치가 가능한 모델인가?
  • API 호출당 비용 또는 시간당 비용이 예산에 적합한가?

활용 예시

클로바노트(CLOVA Note)와 같은 서비스는 STT를 활용해 다수 인원의 회의를 텍스트로 기록하고, 변환된 텍스트를 AI가 요약하여 리포트를 생성합니다. 또한 유튜브의 자동 자막 생성 서비스는 전 세계 시청자에게 실시간에 가까운 접근성을 제공합니다.

헷갈리기 쉬운 용어

TTS (Text-to-Speech)

STT와 반대로 텍스트 데이터를 사람의 목소리(음성)로 출력하는 기술입니다.

NLP (Natural Language Processing)

텍스트를 이해하고 분석하는 기술로, STT가 변환한 텍스트의 맥락을 파악하는 데 사용됩니다.

관련 용어

TTSwhisperasrspeaker-diarization