LLM학습·정렬업데이트 2026.04.28

지식 증류

별칭디스틸레이션Model Distillation

한 줄 정의

큰 '교사 모델'의 출력을 작은 '학생 모델'이 모방하도록 학습시켜, 성능은 최대한 보존하면서 비용과 지연을 줄이는 압축 기법입니다.

자세히 알아보기

Knowledge Distillation은 큰 모델(Teacher)이 만든 답변·확률 분포·임베딩을 작은 모델(Student)이 학습 타깃으로 삼는 방식입니다. 라벨이 0/1인 일반 학습과 달리, 'teacher가 어떤 답에 얼마나 자신 있어 했는지' 같은 풍부한 신호를 활용한다는 점이 차별점입니다.

실무에서 디스틸레이션이 매력적인 이유는 단순합니다. 'GPT-4급의 80% 품질을 2~3% 비용에 돌리는 자체 모델'이라는 카드가 가능해지기 때문입니다. OpenAI, Anthropic, Google 모두 작은 모델 라인업(예: Haiku, Mini, Flash)을 여기에 가깝게 운용한다고 공개적으로 언급해 왔습니다.

주의할 점은 라이선스입니다. 일부 상용 API는 출력으로 경쟁 모델을 학습시키는 행위를 약관으로 금지합니다. 자체 디스틸레이션을 검토할 때는 '데이터 출처가 약관상 학습에 쓸 수 있는가'를 가장 먼저 확인해야 합니다.

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기