사전학습
한 줄 정의
방대한 텍스트 데이터로 LLM의 기본 언어 능력을 처음부터 학습시키는 단계로, 모델이 '세상 지식'을 흡수하는 핵심 과정입니다.
자세히 알아보기
Pretraining은 LLM 제작의 첫 단계입니다. 인터넷·책·코드·대화 같은 방대한 텍스트를 모아 '다음 토큰을 예측하라'는 단순한 목표로 모델을 학습시킵니다. 이 과정에서 모델은 문법, 사실 지식, 추론 패턴을 함께 익힙니다. 우리가 'ChatGPT가 무엇을 안다/모른다'고 말할 때, 그 출처가 대부분 이 단계입니다.
마케팅 관점에서 의미 있는 포인트는 '브랜드가 이 학습 데이터에 들어가 있는가'가 곧 '브랜드가 LLM에 알려져 있는가'와 거의 같다는 사실입니다. 위키피디아, 주요 언론, 평판 사이트, 깃허브 같은 자주 학습되는 소스에 정확한 정보가 쌓여 있어야 합니다.
Pretraining은 비용·시간이 가장 많이 드는 단계입니다. 수개월·수백억 원 규모이기 때문에, 이후 단계인 파인튜닝·RLHF로 행동을 다듬는 게 훨씬 일반적입니다.
관련 용어
LLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLM파인튜닝
이미 사전학습된 LLM을 특정 도메인·작업·말투에 맞춰 추가 학습시키는 과정으로, 자사 데이터에 맞춘 AI를 만들 때 가장 자주 쓰는 방식입니다.
LLMRLHF
사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.
LLMTransformer
지금의 거의 모든 LLM이 기반으로 삼는 신경망 아키텍처로, '셀프 어텐션'을 통해 문장 안 단어들의 관계를 한꺼번에 계산합니다.
LLMAI 정렬
AI가 사람의 의도·가치·안전 기준에 맞게 행동하도록 만드는 작업과 연구 분야 전체를 가리킵니다.