사전학습
한 줄 정의
방대한 텍스트 데이터로 LLM의 기본 언어 능력을 처음부터 학습시키는 단계로, 모델이 '세상 지식'을 흡수하는 핵심 과정입니다.
자세히 알아보기
Pretraining은 LLM 제작의 첫 단계입니다. 인터넷·책·코드·대화 같은 방대한 텍스트를 모아 '다음 토큰을 예측하라'는 단순한 목표로 모델을 학습시킵니다. 이 과정에서 모델은 문법, 사실 지식, 추론 패턴을 함께 익힙니다. 우리가 'ChatGPT가 무엇을 안다/모른다'고 말할 때, 그 출처가 대부분 이 단계입니다.
마케팅 관점에서 의미 있는 포인트는 '브랜드가 이 학습 데이터에 들어가 있는가'가 곧 '브랜드가 LLM에 알려져 있는가'와 거의 같다는 사실입니다. 위키피디아, 주요 언론, 평판 사이트, 깃허브 같은 자주 학습되는 소스에 정확한 정보가 쌓여 있어야 합니다.
Pretraining은 비용·시간이 가장 많이 드는 단계입니다. 수개월·수백억 원 규모이기 때문에, 이후 단계인 파인튜닝·RLHF로 행동을 다듬는 게 훨씬 일반적입니다.
관련 용어
LLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLM파인튜닝
이미 사전학습된 LLM을 특정 도메인·작업·말투에 맞춰 추가 학습시키는 과정으로, 자사 데이터에 맞춘 AI를 만들 때 가장 자주 쓰는 방식입니다.
LLMRLHF
사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.
LLMTransformer
지금의 거의 모든 LLM이 기반으로 삼는 신경망 아키텍처로, '셀프 어텐션'을 통해 문장 안 단어들의 관계를 한꺼번에 계산합니다.
LLMAI 정렬
AI가 사람의 의도·가치·안전 기준에 맞게 행동하도록 만드는 작업과 연구 분야 전체를 가리킵니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기