모델 증류
한 줄 정의
큰 '교사' 모델의 출력을 모방하도록 작은 '학생' 모델을 학습시키는 기법으로, 비싼 모델의 품질을 싼 모델로 옮겨 담는 가장 흔한 방법입니다.
자세히 알아보기
Model Distillation은 큰 모델이 만든 답변을 정답처럼 사용해서, 더 작은 모델을 학습시키는 방법입니다. 작은 모델이 큰 모델의 '판단 패턴'을 흉내내도록 만든다고 보면 직관적입니다. GPT-4o, Claude Haiku, Llama의 작은 버전들 같은 '경량형' 라인업은 거의 다 증류가 들어가 있다고 봐도 됩니다.
마케팅 관점에서 의미 있는 포인트는 'AI 운영비를 잡는 가장 현실적인 도구'라는 사실입니다. 라이브 챗봇·실시간 추천·대규모 콘텐츠 분류처럼 호출량이 큰 작업에서 풀사이즈 모델을 쓰면 비용이 폭발합니다. 증류된 작은 모델로 기본 트래픽을 처리하고, 어려운 케이스만 큰 모델로 넘기는 패턴이 표준이 되고 있습니다.
다만 증류는 '교사 모델만큼 잘하는 작은 모델'을 보장하지 않습니다. 교사 모델의 약점·환각 패턴까지 따라가는 경우도 많고, 도메인 밖 질문에서는 격차가 더 벌어집니다. 평가셋을 잘 만들어두고 케이스별로 비교해보는 게 안전합니다.
관련 용어
파인튜닝
이미 사전학습된 LLM을 특정 도메인·작업·말투에 맞춰 추가 학습시키는 과정으로, 자사 데이터에 맞춘 AI를 만들 때 가장 자주 쓰는 방식입니다.
LLM양자화
모델 가중치를 더 낮은 정밀도(예: 16비트 → 4비트)로 압축해 메모리·비용을 줄이는 기법으로, 같은 모델을 더 작은 GPU에서 돌릴 수 있게 만듭니다.
LLM오픈 웨이트 모델
모델의 가중치(weights) 파일이 공개돼 누구나 다운로드해 자체 인프라에서 돌릴 수 있는 LLM을 가리킵니다. Llama·Mistral·Qwen이 대표적입니다.
LLM모델 라우팅
쿼리 난이도·성격에 따라 어울리는 모델로 트래픽을 분기시키는 구조로, 비용·정확도·속도를 동시에 잡기 위한 표준 패턴이 되고 있습니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기