RAG
Retrieval-Augmented Generation
한 줄 정의
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
자세히 알아보기
RAG(Retrieval-Augmented Generation)는 'LLM이 답을 만들기 전에 관련 문서를 검색해 컨텍스트로 끼워 넣는' 구조를 의미합니다. 사용자가 질문을 하면 시스템이 먼저 키워드 검색이나 임베딩 기반 시멘틱 검색으로 관련 문서를 찾고, 그 문서를 프롬프트에 포함시킨 뒤 LLM이 그 근거 위에서 답변을 생성합니다. 모델의 기억력에만 의존하지 않고 외부 지식을 즉시 활용할 수 있다는 게 핵심입니다.
내부적으로 RAG는 보통 두 단계로 작동합니다. 1단계는 인덱싱으로, 우리 사이트 콘텐츠를 청크로 잘라 임베딩하고 벡터 DB에 저장합니다. 2단계는 질의 시점에 사용자 질문을 같은 방식으로 임베딩해 가장 가까운 청크 N개를 꺼내고, LLM 프롬프트에 함께 전달하는 흐름입니다. 답변과 함께 출처 청크를 그대로 노출할 수 있어, 환각을 줄이고 인용 가능한 답을 만든다는 장점이 큽니다.
마케터에게 RAG가 결정적인 이유는 'GEO가 작동하는 메커니즘 그 자체'이기 때문입니다. AI Overview, ChatGPT Search, Perplexity, Claude의 웹 검색 모드, Bing/Copilot 답변 모두 사실상 RAG 파이프라인입니다. 즉, 우리 사이트가 이 RAG들이 인덱싱하기 좋은 형태로 존재해야 답변에 등장합니다. 페이지 구조, 명확한 H 태그, 짧고 자족적인 문단, 정확한 메타데이터, llms.txt 같은 신호가 RAG 친화도에 직접 영향을 줍니다.
흔한 오해는 'RAG가 환각을 없애준다'는 기대입니다. 실제로는 잘못된 청크를 가져오면 환각이 더 심해지기도 하고, 사람이 출처를 확인하지 않으면 LLM이 청크 안 내용을 멋대로 일반화하는 경우도 많습니다. 그래서 좋은 RAG는 '검색 품질 + 청크 설계 + 답변 형식 강제 + 출처 노출'을 한 세트로 봐야지, '벡터 DB만 붙이면 끝'이 아닙니다.
한국 시장 운영 관점에서는 RAG가 비용 구조에도 영향을 줍니다. 한국어 청크는 영어보다 토큰이 많아 같은 정보를 넣어도 컨텍스트와 비용을 더 먹습니다. 그래서 청크 크기·중복 제거·메타데이터 기반 재랭킹 같은 작업이 단순 품질을 넘어 운영비에 직접 연결됩니다. GEO 입장에서는 '글로벌 RAG가 우리 한국어 콘텐츠를 잘 가져갈 수 있게 만드는 것'이 가장 비용 효율적인 노출 확장 전략입니다.
관련 용어
임베딩
텍스트·이미지 같은 데이터를 의미를 보존한 채 숫자 벡터로 바꾼 결과로, 시멘틱 검색·벡터 DB·RAG의 출발점입니다.
LLM벡터 데이터베이스
임베딩 벡터를 저장하고 '의미적으로 유사한' 항목을 빠르게 찾아주는 데이터베이스로, RAG와 시멘틱 검색의 핵심 인프라입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
GEO·AEOChatGPT Search
ChatGPT가 실시간 웹 검색 결과를 결합해 답변하는 기능으로, AI 검색 트래픽의 가장 큰 표면 중 하나입니다.
GEO·AEOPerplexity
검색 결과를 답변 형태로 정리하면서 모든 문장에 출처를 다는 'Answer Engine'으로, GEO 측정의 기준 표면으로 자주 쓰입니다.
GEO·AEO출처 기반 응답 생성
LLM이 외부 출처에 근거를 두고 답변을 작성하도록 강제하는 응답 방식으로, AI 검색의 인용 답변이 대표적인 사례입니다.
AI Agent에이전틱 RAG
단순히 한 번 검색해서 답하는 RAG가 아니라, 에이전트가 검색 쿼리·전략·재시도를 능동적으로 결정해가며 정보를 모으는 패턴입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기