LLM학습·정렬업데이트 2026.04.28

사전학습

별칭프리트레이닝기초 학습

한 줄 정의

방대한 텍스트 데이터로 LLM의 기본 언어 능력을 처음부터 학습시키는 단계로, 모델이 '세상 지식'을 흡수하는 핵심 과정입니다.

자세히 알아보기

Pretraining은 LLM 제작의 첫 단계입니다. 인터넷·책·코드·대화 같은 방대한 텍스트를 모아 '다음 토큰을 예측하라'는 단순한 목표로 모델을 학습시킵니다. 이 과정에서 모델은 문법, 사실 지식, 추론 패턴을 함께 익힙니다. 우리가 'ChatGPT가 무엇을 안다/모른다'고 말할 때, 그 출처가 대부분 이 단계입니다.

마케팅 관점에서 의미 있는 포인트는 '브랜드가 이 학습 데이터에 들어가 있는가'가 곧 '브랜드가 LLM에 알려져 있는가'와 거의 같다는 사실입니다. 위키피디아, 주요 언론, 평판 사이트, 깃허브 같은 자주 학습되는 소스에 정확한 정보가 쌓여 있어야 합니다.

Pretraining은 비용·시간이 가장 많이 드는 단계입니다. 수개월·수백억 원 규모이기 때문에, 이후 단계인 파인튜닝·RLHF로 행동을 다듬는 게 훨씬 일반적입니다.

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기