추론 성능 (Inference Performance)

기술 용어
1분 읽기

AI 모델이 사용자 입력을 받아 결과를 생성하는 속도와 효율성으로, 주로 첫 토큰 생성 시간(TTFT)과 초당 토큰 수(TPS)로 측정됩니다.

다른 이름
tokens per secondthroughput

상세 설명

학습을 마친 AI 모델이 실제 서비스 환경에서 데이터를 처리하는 실시간 실행 능력을 의미합니다. 대규모 언어 모델(LLM)의 경우 사용자가 체감하는 응답 지연 시간(Latency)과 시스템이 한 번에 처리할 수 있는 데이터 양(Throughput)이 핵심입니다. 최근에는 추론 시점에 연산량을 늘려 성능을 높이는 '추론 시간 확장(Inference-time Scaling)' 기술이 도입되면서, 단순한 속도를 넘어 비용 대비 결과의 품질을 결정하는 결정적인 도구 선택 기준이 되고 있습니다.

도구 선택에서 중요한 이유

추론 성능은 사용자 경험(UX)과 운영 비용(OPEX)에 직결됩니다. 응답이 느리면 사용자 이탈률이 높아지며, 효율성이 낮은 도구는 서비스 확장 시 서버 비용을 기하급수적으로 증가시킵니다. 특히 실시간 채팅이나 API 연동 서비스를 구축할 때 가장 먼저 고려해야 할 하드웨어/소프트웨어적 지표입니다.

확인할 점

  • TTFT (첫 토큰 생성 시간): 사용자가 응답을 기다리는 첫 대기 시간 (0.2~0.5초 이내 권장)
  • TPS (초당 토큰 생성 수): 전체 답변이 완성되는 속도 (사용자 읽기 속도보다 빠른지 확인)
  • 비용 효율성: 100만 토큰당 발생하는 과금액 대비 처리 속도의 적절성
  • 동시 접속 처리 능력: 사용자 급증 시에도 일정한 응답 속도를 유지하는지 여부

예시

고객 상담용 챗봇을 만들 때, 응답 품질이 비슷하다면 TTFT가 짧은 모델을 선택해야 사용자가 '대기 중'이라는 인상을 받지 않습니다. 반면 대량의 문서를 요약하는 백엔드 작업이라면 TTFT보다는 전체 처리량(Throughput)이 높은 모델이나 API 제공사를 선택하는 것이 비용 면에서 유리합니다.

관련 용어

레이턴시 (Latency)throughputtps양자화inference-time-scaling