RAG 평가
한 줄 정의
검색·생성 두 단계로 동작하는 RAG 시스템의 품질을 정밀하게 진단하기 위한 평가 방법론으로, '왜 답이 이상한지' 원인을 분리해줍니다.
자세히 알아보기
RAG Evaluation은 RAG 시스템의 답변 품질을 단순 'Yes/No'가 아니라, 단계별 지표로 분해해서 보는 접근입니다. 대표 지표로는 검색 단계의 컨텍스트 적합도(context precision/recall), 생성 단계의 신뢰성(faithfulness, 출처와 일치하는가), 답변 적합도(answer relevance) 등이 있습니다. Ragas, TruLens, DeepEval 같은 오픈소스 도구가 이 지표들을 표준화해 제공합니다.
마케팅 관점에서 의미 있는 포인트는 두 가지입니다. 하나는 사내 RAG 챗봇·검색 어시스턴트 품질이 무너졌을 때, '검색이 못 가져왔는지', '생성이 출처를 무시했는지'를 분리해서 진단할 수 있다는 점, 다른 하나는 GEO 관점에서 우리 콘텐츠가 RAG에 얼마나 '잘 인용 가능한 형태인지'를 점검하는 데 같은 지표가 그대로 쓰인다는 점입니다.
현장에선 LLM-as-a-Judge와 결합해 자동 평가를 돌리고, 회귀가 의심되는 케이스만 사람이 검증하는 흐름이 표준입니다. 단일 점수만 보지 말고, 검색·생성 양쪽 지표를 같이 추적해야 진짜 원인을 잡을 수 있습니다.
관련 용어
RAG
LLM이 답하기 전에 외부 문서나 검색 결과를 가져와 근거로 활용하는 구조로, ChatGPT Search·Perplexity 같은 AI 검색 답변의 핵심 기법입니다.
LLMLLM 채점자
LLM이 다른 LLM의 답변을 채점·비교하도록 시켜 평가를 자동화하는 방식으로, 사람 라벨링의 한계를 보완하는 표준 기법이 됐습니다.
LLM리랭커
검색이 뽑은 후보 문서를 다시 한 번 정밀하게 점수 매겨 순서를 바꾸는 모델로, AI가 '어느 문서를 인용할지'를 결정하는 마지막 관문입니다.
LLM하이브리드 검색
키워드 검색(BM25)과 벡터 검색을 결합해 양쪽의 장점을 함께 쓰는 검색 방식으로, Perplexity·내부 RAG 같은 AI 답변 시스템이 흔히 쓰는 구조입니다.
LLMLLM 벤치마크
LLM의 능력을 객관적으로 비교하기 위한 표준화된 평가 시험으로, 모델 출시 발표에서 자주 인용되는 점수의 출처입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기