LLM추론·인터페이스업데이트 2026.04.28

RAG

Retrieval-Augmented Generation

별칭검색 증강 생성검색 기반 답변

한 줄 정의

LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.

자세히 알아보기

RAG(Retrieval-Augmented Generation)는 'LLM이 답을 만들기 전에 관련 문서를 검색해 컨텍스트로 끼워 넣는' 구조를 의미합니다. 사용자가 질문을 하면 시스템이 먼저 키워드 검색이나 임베딩 기반 시멘틱 검색으로 관련 문서를 찾고, 그 문서를 프롬프트에 포함시킨 뒤 LLM이 그 근거 위에서 답변을 생성합니다. 모델의 기억력에만 의존하지 않고 외부 지식을 즉시 활용할 수 있다는 게 핵심입니다.

내부적으로 RAG는 보통 두 단계로 작동합니다. 1단계는 인덱싱으로, 우리 사이트 콘텐츠를 청크로 잘라 임베딩하고 벡터 DB에 저장합니다. 2단계는 질의 시점에 사용자 질문을 같은 방식으로 임베딩해 가장 가까운 청크 N개를 꺼내고, LLM 프롬프트에 함께 전달하는 흐름입니다. 답변과 함께 출처 청크를 그대로 노출할 수 있어, 환각을 줄이고 인용 가능한 답을 만든다는 장점이 큽니다.

마케터에게 RAG가 결정적인 이유는 'GEO가 작동하는 메커니즘 그 자체'이기 때문입니다. AI Overview, ChatGPT Search, Perplexity, Claude의 웹 검색 모드, Bing/Copilot 답변 모두 사실상 RAG 파이프라인입니다. 즉, 우리 사이트가 이 RAG들이 인덱싱하기 좋은 형태로 존재해야 답변에 등장합니다. 페이지 구조, 명확한 H 태그, 짧고 자족적인 문단, 정확한 메타데이터, llms.txt 같은 신호가 RAG 친화도에 직접 영향을 줍니다.

흔한 오해는 'RAG가 환각을 없애준다'는 기대입니다. 실제로는 잘못된 청크를 가져오면 환각이 더 심해지기도 하고, 사람이 출처를 확인하지 않으면 LLM이 청크 안 내용을 멋대로 일반화하는 경우도 많습니다. 그래서 좋은 RAG는 '검색 품질 + 청크 설계 + 답변 형식 강제 + 출처 노출'을 한 세트로 봐야지, '벡터 DB만 붙이면 끝'이 아닙니다.

한국 시장 운영 관점에서는 RAG가 비용 구조에도 영향을 줍니다. 한국어 청크는 영어보다 토큰이 많아 같은 정보를 넣어도 컨텍스트와 비용을 더 먹습니다. 그래서 청크 크기·중복 제거·메타데이터 기반 재랭킹 같은 작업이 단순 품질을 넘어 운영비에 직접 연결됩니다. GEO 입장에서는 '글로벌 RAG가 우리 한국어 콘텐츠를 잘 가져갈 수 있게 만드는 것'이 가장 비용 효율적인 노출 확장 전략입니다.

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기