프롬프트 캐싱
한 줄 정의
같은 시스템 프롬프트·문서를 반복해서 호출할 때 처음 계산한 결과를 재사용해 비용·지연을 크게 줄이는 기능으로, GEO 모니터링처럼 반복 호출이 많은 작업의 운영비에 직접 영향을 줍니다.
자세히 알아보기
Prompt Caching은 LLM이 같은 프롬프트(시스템 프롬프트·고정된 문서·long context)를 매번 다시 처음부터 계산하지 않도록, 한 번 계산된 내부 상태를 저장해 다음 호출에서 재사용하는 기능입니다. OpenAI·Anthropic·Google이 모두 자체 방식으로 지원합니다. 캐시 적중 시 입력 토큰 비용이 크게 떨어지고(흔히 50~90% 절감), 첫 토큰 응답 시간(TTFT)도 짧아집니다.
마케팅 관점에서 의미 있는 포인트는 'AI 운영비의 합리화 도구'라는 사실입니다. GEO 모니터링처럼 같은 시스템 프롬프트로 매일 수백~수천 번 동일한 점검 쿼리를 던지는 작업, 사내 RAG처럼 같은 문서 묶음을 반복해서 컨텍스트로 쓰는 작업에서 직접적인 비용 절감이 가능합니다.
현장에선 캐시가 유효하려면 프롬프트 앞부분이 문자 단위로 동일해야 한다는 제약이 있습니다. 즉, '시스템 프롬프트 → 고정 문서 → 가변 사용자 입력' 순으로 구조를 잡는 게 캐시 적중률을 최대화하는 정석 패턴입니다.
출처
관련 용어
시스템 프롬프트
사용자 메시지보다 먼저 LLM에 전달돼 모델의 역할·말투·행동 규칙을 설정하는 지시문으로, AI 제품의 '캐릭터'를 정의합니다.
LLM컨텍스트 윈도우
LLM이 한 번에 입력으로 받아들일 수 있는 토큰의 최대 길이로, 모델이 한 번에 참고할 수 있는 문맥의 크기를 결정합니다.
LLMRAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
LLM컨텍스트 엔지니어링
프롬프트 한 줄을 다듬는 것을 넘어, 모델에게 '어떤 컨텍스트를 어떻게 조립해서 줄지' 전체를 설계하는 작업으로 2024~2025년 새롭게 자리 잡은 개념입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기