양자화
한 줄 정의
모델 가중치를 더 낮은 정밀도(예: 16비트 → 4비트)로 압축해 메모리·비용을 줄이는 기법으로, 같은 모델을 더 작은 GPU에서 돌릴 수 있게 만듭니다.
자세히 알아보기
Quantization은 LLM의 숫자 가중치를 더 적은 비트로 표현하는 압축 기법입니다. 16비트 부동소수를 8비트·4비트 정수로 줄이면 메모리와 연산량이 크게 떨어지면서도, 답변 품질은 대부분 유지됩니다. 4-bit 양자화 덕분에 70B 모델을 48GB급 워크스테이션 GPU 한 장이나, 24GB 컨슈머 GPU에서 오프로드와 함께 구동할 수 있게 됐습니다.
마케팅 관점에서 직접 다룰 일은 적지만, '온디바이스 AI'와 '저비용 AI 서비스'의 배경에는 거의 항상 양자화가 깔려 있습니다. 스마트폰에서 도는 어시스턴트, 사내 서버에서 도는 비공개 LLM 같은 것들이 가능해진 이유입니다.
다만 양자화 비트를 너무 낮추면 답변 품질이 살짝 떨어지고, 특히 추론·코드 같은 정밀한 작업에서 차이가 더 두드러집니다. '같은 모델인데 왜 답이 좀 어색하지?' 싶을 때, 양자화 수준을 한 번 의심해볼 만합니다.
출처
관련 용어
모델 증류
큰 '교사' 모델의 출력을 모방하도록 작은 '학생' 모델을 학습시키는 기법으로, 비싼 모델의 품질을 싼 모델로 옮겨 담는 가장 흔한 방법입니다.
LLM오픈 웨이트 모델
모델의 가중치(weights) 파일이 공개돼 누구나 다운로드해 자체 인프라에서 돌릴 수 있는 LLM을 가리킵니다. Llama·Mistral·Qwen이 대표적입니다.
LLM파인튜닝
이미 사전학습된 LLM을 특정 도메인·작업·말투에 맞춰 추가 학습시키는 과정으로, 자사 데이터에 맞춘 AI를 만들 때 가장 자주 쓰는 방식입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLM스펙큘레이티브 디코딩
작은 '초안 모델'이 여러 토큰을 미리 예측해두면 큰 모델이 한 번에 검증해 채택하는 추론 가속 기법으로, AI 응답 속도를 크게 끌어올립니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기