프롬프트 캐싱
용어 이름 복사
AI 개념약 1분 읽기
반복되는 프롬프트 앞부분을 캐시에 저장·재사용해 응답 비용과 지연을 줄이는 LLM 최적화 기법입니다.
다른 이름
Prompt Caching프롬프트 캐시컨텍스트 캐싱
상세 설명
프롬프트 캐싱(Prompt Caching)은 여러 요청에서 똑같이 반복되는 프롬프트 앞부분(시스템 지시문, 긴 문서, 예시 등)을 캐시에 저장해 두고 재사용함으로써, 매번 다시 처리하는 비용과 지연을 줄이는 기법입니다. 긴 공통 맥락을 반복해서 보내는 챗봇·에이전트·문서 질의응답에서 효과가 큽니다. 캐시된 부분은 처리 비용이 크게 할인되고 응답도 빨라지며, 보통 캐시는 짧은 시간 유지됩니다. OpenAI·Anthropic·Google 등이 지원하며, 비용에 민감하거나 동일한 대용량 맥락을 반복 사용하는 서비스에서 도입 효과가 두드러집니다.
도구 선택에서 중요한 이유
같은 긴 맥락(시스템 지시문, 매뉴얼 등)을 반복해 보내는 서비스라면 프롬프트 캐싱이 비용과 응답 속도를 크게 바꿉니다. 도구나 API가 캐싱을 지원하는지, 무엇을 어떻게 캐시할지 제어할 수 있는지, 캐시 유지 시간과 할인율이 어떤지가 운영 비용을 좌우합니다.
도구를 고를 때 확인할 점
- 프롬프트 캐싱을 지원하고 캐시 대상을 지정할 수 있는가
- 캐시 적중 시 비용 할인율과 지연 감소가 명확한가
- 캐시 유지 시간이 사용 패턴에 맞는가
- 캐시된 민감 데이터의 보관·접근 정책이 안전한가
실제 적용 예시
수십 페이지 제품 매뉴얼을 매 질문마다 함께 보내는 고객지원 챗봇은, 매뉴얼 부분을 캐싱하면 두 번째 질문부터 그 부분의 처리 비용이 크게 줄고 응답도 빨라집니다. 질문마다 바뀌는 사용자 메시지만 새로 처리하면 되기 때문입니다.
관련 용어
토큰 최적화 (Token Optimization)
LLM이 처리하는 데이터 단위인 토큰의 사용량을 전략적으로 관리하여 API 호출 비용을 절감하고, 모델의 초기 응답 속도(TTFT) 및 전반적인 추론 성능을 향상시키는 최적화 과정입니다.
컨텍스트 윈도우AI 모델이 한 번의 요청(프롬프트)에서 동시에 처리하고 기억할 수 있는 데이터(토큰)의 최대 범위입니다. 모델의 '단기 기억력'이자 작업 공간의 크기를 의미합니다.
LLM수십억 개 이상의 매개변수를 통해 방대한 데이터를 학습한 인공지능 모델입니다. 자연어 이해와 생성뿐만 아니라 복잡한 추론, 요약, 코드 작성 등 다양한 지적 작업을 수행하며 현대 생성형 AI 서비스의 핵심 엔진 역할...
레이턴시 (Latency)사용자가 AI에 요청을 보낸 시점부터 첫 응답이 화면에 나타나거나 전체 결과가 완료될 때까지 걸리는 소요 시간입니다.