LLM 채점자
한 줄 정의
LLM이 다른 LLM의 답변을 채점·비교하도록 시켜 평가를 자동화하는 방식으로, 사람 라벨링의 한계를 보완하는 표준 기법이 됐습니다.
자세히 알아보기
LLM-as-a-Judge는 'A 답변과 B 답변 중 어느 쪽이 더 좋냐'를 사람이 일일이 판정하는 대신, 강한 LLM에게 채점 기준을 주고 평가를 맡기는 방식입니다. 사람 평가에 비해 빠르고 저렴하고 일관성 있는 데다, 케이스 수가 많아질수록 격차가 커집니다.
다만 한계도 분명합니다. 길게 쓴 답변을 더 좋다고 평가하는 경향(length bias), 비슷한 어조의 답변을 선호하는 경향, 프롬프트 미묘한 변화에 민감한 점 등이 알려져 있습니다. 그래서 실무에서는 절대 점수보다 '같은 평가 프롬프트로 모델 A vs 모델 B를 비교한 상대 점수'로 쓰는 게 안전합니다.
GEO·B2B 평가 환경에서도 LLM-as-a-Judge는 유용합니다. 같은 질문에 대해 우리 콘텐츠가 인용된 답변과 그렇지 않은 답변을 LLM이 비교해주면, 인용 가능성을 수치로 추적하기 위한 빠른 평가 루프를 만들 수 있습니다.
관련 용어
인스트럭션 튜닝
베이스 LLM을 '지시문을 따라 답변하는' 형태로 미세조정하는 학습 단계로, 사용자가 자연스럽게 명령할 수 있게 만드는 핵심 과정입니다.
LLM지식 증류
큰 '교사 모델'의 출력을 작은 '학생 모델'이 모방하도록 학습시켜, 성능은 최대한 보존하면서 비용과 지연을 줄이는 압축 기법입니다.
LLMAI 워터마킹
AI가 생성한 텍스트·이미지·음성에 사람이 알아채기 어려운 식별 신호를 심어 'AI 생성물 여부'를 사후에 검증할 수 있게 하는 기술입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
GEO·AEOCitation Rate
특정 질문군에서 AI 답변에 우리 브랜드 또는 도메인이 인용된 비율을 의미하는 GEO의 핵심 지표입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기