STT
음성 신호를 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 AI 기술입니다. 최근에는 Whisper, Gemini 등 딥러닝 모델을 통해 소음 환경에서도 높은 정확도를 제공하며 자동 자막, 회의록 작성 등에 활용됩니다.
상세 설명
도구 선택에서 중요한 이유
STT 도구 선택 시 핵심 지표는 단어 오류율(WER, Word Error Rate)입니다. 단순 인식률 외에도 배경 소음 제거 능력, 전문 용어(도메인 용어) 인식 성능, 그리고 지연 시간(Latency)을 고려해야 합니다. 특히 화자가 여러 명인 회의 상황에서는 각 화자를 정확히 구분해내는 '화자 분리' 성능이 업무 자동화의 수준을 결정짓습니다.
확인할 점
- 한국어 특유의 경어체 및 동음이의어 인식 정확도가 높은가?
- 화자 분리(Speaker Diarization) 기능을 지원하는가?
- 보안을 위해 로컬 환경(On-premise) 설치가 가능한 모델인가?
- API 호출당 비용 또는 시간당 비용이 예산에 적합한가?
활용 예시
클로바노트(CLOVA Note)와 같은 서비스는 STT를 활용해 다수 인원의 회의를 텍스트로 기록하고, 변환된 텍스트를 AI가 요약하여 리포트를 생성합니다. 또한 유튜브의 자동 자막 생성 서비스는 전 세계 시청자에게 실시간에 가까운 접근성을 제공합니다.
헷갈리기 쉬운 용어
TTS (Text-to-Speech)
STT와 반대로 텍스트 데이터를 사람의 목소리(음성)로 출력하는 기술입니다.
NLP (Natural Language Processing)
텍스트를 이해하고 분석하는 기술로, STT가 변환한 텍스트의 맥락을 파악하는 데 사용됩니다.
관련 AI 도구
'STT' 개념과 연관된 AI 도구
딥그램
API 연결만으로 실시간 음성 전사와 언어 분석 기능을 구현하는 고성능 음성 AI 솔루션
어셈블리AI
API 하나로 정교한 음성 변환부터 심층 분석까지 해결하는 개발자용 음성 AI 플랫폼
오터
회의에 직접 참여하지 않아도 실시간 대본 작성부터 핵심 요약, 후속 조치 정리까지 지원하는 AI 미팅 비서
위스퍼
OpenAI
68만 시간의 데이터를 학습해 소음 섞인 다국어 음성도 정확하게 텍스트로 변환하고 번역하는 오픈소스 AI
라랄AI
고도화된 AI 엔진으로 오디오에서 보컬과 악기 소리를 고음질로 정밀하게 추출해주는 스템 분리 서비스