레이턴시 (Latency)

기술 용어
1분 읽기

사용자가 AI에 요청을 보낸 시점부터 첫 응답이 화면에 나타나거나 전체 결과가 완료될 때까지 걸리는 소요 시간입니다.

다른 이름
response timeinference speed

상세 설명

AI 도구의 성능을 결정하는 핵심 지표로, 특히 LLM(대형 언어 모델)에서는 첫 번째 글자가 출력되는 'TTFT(Time To First Token)'와 초당 생성 속도인 'TPS(Tokens Per Second)'로 구분합니다. 2026년 기준, Groq와 같은 LPU 기반 하드웨어는 500~800 TPS 이상의 속도를 기록하며, 실시간 음성 AI는 자연스러운 대화를 위해 300ms 이하의 레이턴시를 지향합니다. 네트워크 환경, 모델의 매개변수 크기, 서버 하드웨어의 최적화 수준에 따라 결정됩니다.

AI 도구 선택에서 중요한 이유

레이턴시는 사용자 경험(UX)과 직결됩니다. 실시간 상담 챗봇이나 음성 비서의 경우 레이턴시가 1초를 넘어가면 대화의 흐름이 끊겨 신뢰도가 급감합니다. 반면 대량의 보고서 요약이나 코드 생성 도구는 전체 처리 속도(TPS)가 더 중요합니다. 비즈니스 목적에 따라 '반응 속도'와 '처리 용량' 중 우선순위를 정해야 합니다.

선택 시 확인 점검표

  • 실시간 채팅 앱: TTFT가 500ms 이내인지 확인하세요.
  • 음성 AI 서비스: 엔드투엔드(E2E) 지연 시간이 300~600ms 사이인지 확인하세요.
  • 대량 데이터 처리: 개별 반응 속도보다 전체 완료 시간(Throughput)이 높은 도구를 선택하세요.
  • 오프라인 환경 필요 시: 인터넷 연결 지연이 없는 온디바이스(On-device) AI 모델을 검토하세요.

성능 예시

2026년 5월 기준, GPT-4o는 평균 460ms 내외의 TTFT를 보여주며 일반적인 채팅에 적합합니다. 반면 초고속 추론 전문 엔진인 Groq의 Llama 3 기반 API는 800 TPS를 상회하여 복잡한 에이전트 워크플로우에서도 지연 없는 실시간 피드백을 제공합니다.

관련 용어

ttfttpslpu온디바이스 AI (On-device AI)