프롬프트 캐싱

AI 개념

약 1분 읽기

반복되는 프롬프트 앞부분을 캐시에 저장·재사용해 응답 비용과 지연을 줄이는 LLM 최적화 기법입니다.

다른 이름

Prompt Caching프롬프트 캐시컨텍스트 캐싱

상세 설명

프롬프트 캐싱(Prompt Caching)은 여러 요청에서 똑같이 반복되는 프롬프트 앞부분(시스템 지시문, 긴 문서, 예시 등)을 캐시에 저장해 두고 재사용함으로써, 매번 다시 처리하는 비용과 지연을 줄이는 기법입니다. 긴 공통 맥락을 반복해서 보내는 챗봇·에이전트·문서 질의응답에서 효과가 큽니다. 캐시된 부분은 처리 비용이 크게 할인되고 응답도 빨라지며, 보통 캐시는 짧은 시간 유지됩니다. OpenAI·Anthropic·Google 등이 지원하며, 비용에 민감하거나 동일한 대용량 맥락을 반복 사용하는 서비스에서 도입 효과가 두드러집니다.

도구 선택에서 중요한 이유

같은 긴 맥락(시스템 지시문, 매뉴얼 등)을 반복해 보내는 서비스라면 프롬프트 캐싱이 비용과 응답 속도를 크게 바꿉니다. 도구나 API가 캐싱을 지원하는지, 무엇을 어떻게 캐시할지 제어할 수 있는지, 캐시 유지 시간과 할인율이 어떤지가 운영 비용을 좌우합니다.

도구를 고를 때 확인할 점

프롬프트 캐싱을 지원하고 캐시 대상을 지정할 수 있는가
캐시 적중 시 비용 할인율과 지연 감소가 명확한가
캐시 유지 시간이 사용 패턴에 맞는가
캐시된 민감 데이터의 보관·접근 정책이 안전한가

실제 적용 예시

수십 페이지 제품 매뉴얼을 매 질문마다 함께 보내는 고객지원 챗봇은, 매뉴얼 부분을 캐싱하면 두 번째 질문부터 그 부분의 처리 비용이 크게 줄고 응답도 빨라집니다. 질문마다 바뀌는 사용자 메시지만 새로 처리하면 되기 때문입니다.

참고 링크

전체 용어 목록