메인 콘텐츠로 건너뛰기

STT

AI 개념

약 1분 읽기

음성 신호를 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 AI 기술입니다. 최근에는 Whisper, Gemini 등 딥러닝 모델을 통해 소음 환경에서도 높은 정확도를 제공하며 자동 자막, 회의록 작성 등에 활용됩니다.

다른 이름

음성 인식Speech-to-TextASR자동 음성 인식음성인식

상세 설명

STT(Speech-to-Text)는 사람의 음성을 실시간 또는 비실시간으로 텍스트로 변환하는 인공지능 기술로, 자동 음성 인식(ASR)이라고도 불립니다. 과거의 통계적 모델에서 벗어나 현재는 OpenAI의 Whisper, Google의 Chirp와 같은 신경망 기반 엔드투엔드(End-to-End) 모델이 주류를 이룹니다. 이 기술은 다국어 인식, 화자 분리(Speaker Diarization), 실시간 스트리밍 처리 등에서 비약적인 발전을 이루었습니다. 특히 LLM과 결합하여 단순한 텍스트 변환을 넘어 회의 요약, 감정 분석, 외국어 번역 등으로 서비스 영역이 확장되고 있으며, 보안이 중요한 기업을 위한 온프레미스 구축형 모델도 활발히 도입되고 있습니다.

도구 선택에서 중요한 이유

STT 도구 선택 시 핵심 지표는 단어 오류율(WER, Word Error Rate)입니다. 단순 인식률 외에도 배경 소음 제거 능력, 전문 용어(도메인 용어) 인식 성능, 그리고 지연 시간(Latency)을 고려해야 합니다. 특히 화자가 여러 명인 회의 상황에서는 각 화자를 정확히 구분해내는 '화자 분리' 성능이 업무 자동화의 수준을 결정짓습니다.

확인할 점

한국어 특유의 경어체 및 동음이의어 인식 정확도가 높은가?
화자 분리(Speaker Diarization) 기능을 지원하는가?
보안을 위해 로컬 환경(On-premise) 설치가 가능한 모델인가?
API 호출당 비용 또는 시간당 비용이 예산에 적합한가?

활용 예시

클로바노트(CLOVA Note)와 같은 서비스는 STT를 활용해 다수 인원의 회의를 텍스트로 기록하고, 변환된 텍스트를 AI가 요약하여 리포트를 생성합니다. 또한 유튜브의 자동 자막 생성 서비스는 전 세계 시청자에게 실시간에 가까운 접근성을 제공합니다.

헷갈리기 쉬운 용어

TTS (Text-to-Speech)

STT와 반대로 텍스트 데이터를 사람의 목소리(음성)로 출력하는 기술입니다.

NLP (Natural Language Processing)

텍스트를 이해하고 분석하는 기술로, STT가 변환한 텍스트의 맥락을 파악하는 데 사용됩니다.

관련 AI 도구

'STT' 개념과 연관된 AI 도구

딥그램

API 연결만으로 실시간 음성 전사와 언어 분석 기능을 구현하는 고성능 음성 AI 솔루션

★ 436무료 플랜API

어셈블리AI

API 하나로 정교한 음성 변환부터 심층 분석까지 해결하는 개발자용 음성 AI 플랫폼

오터

회의에 직접 참여하지 않아도 실시간 대본 작성부터 핵심 요약, 후속 조치 정리까지 지원하는 AI 미팅 비서

무료 플랜API

오디오/비디오

위스퍼

OpenAI

68만 시간의 데이터를 학습해 소음 섞인 다국어 음성도 정확하게 텍스트로 변환하고 번역하는 오픈소스 AI

무료 플랜API오픈소스

오디오/비디오

라랄AI

고도화된 AI 엔진으로 오디오에서 보컬과 악기 소리를 고음질로 정밀하게 추출해주는 스템 분리 서비스

오디오 처리

관련 용어

TTSwhisper asr 화자 분리 (Speaker Diarization)

참고 링크

전체 용어 목록