TTS

AI 개념

약 1분 읽기

입력한 텍스트를 사람이 직접 말하는 것처럼 자연스러운 음성으로 변환해 들려주는 AI 기술입니다.

다른 이름

음성 합성Text-to-Speech텍스트 음성 변환

상세 설명

TTS(Text-to-Speech, 음성 합성)는 텍스트를 사람의 목소리처럼 자연스럽게 읽어 주는 기술입니다. 과거의 기계적인 음성과 달리, Tacotron·VITS 같은 딥러닝 기반 TTS는 억양·속도·감정을 조절하고, 짧은 샘플만으로 특정 화자의 목소리를 흉내 내는 음성 복제(Voice Cloning)까지 가능합니다. 오디오북·내비게이션 안내·시각장애인 접근성 지원·AI 어시스턴트·영상 더빙·교육 콘텐츠 제작 등에 널리 쓰입니다. ElevenLabs, 네이버 CLOVA Voice, LOVO, Murf 등이 대표적인 서비스이며, 지원 언어와 음성의 자연스러움이 도구별로 차이가 큽니다.

도구 선택에서 중요한 이유

TTS 도구는 한국어 발음의 자연스러움에서 격차가 큽니다. 영어 음질이 뛰어나도 한국어 억양이 어색한 경우가 많아, 실제 사용할 언어로 직접 들어 보고 골라야 합니다. 감정·속도 조절, 음성 복제 허용 범위, 상업적 사용 라이선스, 생성 분량 대비 비용도 함께 따져야 콘텐츠 제작에 무리 없이 쓸 수 있습니다.