LLM학습·정렬업데이트 2026.04.28

사전학습

별칭프리트레이닝기초 학습

한 줄 정의

방대한 텍스트 데이터로 LLM의 기본 언어 능력을 처음부터 학습시키는 단계로, 모델이 '세상 지식'을 흡수하는 핵심 과정입니다.

자세히 알아보기

Pretraining은 LLM 제작의 첫 단계입니다. 인터넷·책·코드·대화 같은 방대한 텍스트를 모아 '다음 토큰을 예측하라'는 단순한 목표로 모델을 학습시킵니다. 이 과정에서 모델은 문법, 사실 지식, 추론 패턴을 함께 익힙니다. 우리가 'ChatGPT가 무엇을 안다/모른다'고 말할 때, 그 출처가 대부분 이 단계입니다.

마케팅 관점에서 의미 있는 포인트는 '브랜드가 이 학습 데이터에 들어가 있는가'가 곧 '브랜드가 LLM에 알려져 있는가'와 거의 같다는 사실입니다. 위키피디아, 주요 언론, 평판 사이트, 깃허브 같은 자주 학습되는 소스에 정확한 정보가 쌓여 있어야 합니다.

Pretraining은 비용·시간이 가장 많이 드는 단계입니다. 수개월·수백억 원 규모이기 때문에, 이후 단계인 파인튜닝·RLHF로 행동을 다듬는 게 훨씬 일반적입니다.

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기

사전학습

자세히 알아보기

관련 용어

LLM

파인튜닝

RLHF

Transformer

AI 정렬

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?