RLHF
Reinforcement Learning from Human Feedback
한 줄 정의
사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.
자세히 알아보기
RLHF는 사람의 평가를 활용해 LLM의 행동을 다듬는 정렬 기법입니다. 모델이 만든 두 응답을 사람이 비교해 '어느 쪽이 더 낫다'고 표시하면, 그 데이터로 보상 모델을 학습시키고, 다시 강화학습을 통해 LLM이 그 선호에 맞춰 답하도록 만듭니다.
마케팅 관점에서 의미는 'GPT-3와 ChatGPT의 차이를 만든 결정적인 단계'라는 사실입니다. 동일한 모델이라도 RLHF가 적용되면 어조·도움성·안전성이 확연히 달라집니다. 즉, 우리가 ChatGPT에서 느끼는 '말이 잘 통하는 느낌'은 모델 자체보다 RLHF 결과물에 가깝습니다.
최근에는 RLHF 외에도 RLAIF(AI 피드백 활용), DPO(Direct Preference Optimization) 같은 변형이 나오고 있는데, 큰 그림은 비슷합니다. '사람이 원하는 답에 가깝게 모델을 정렬한다'는 목표는 같습니다.
출처
관련 용어
AI 정렬
AI가 사람의 의도·가치·안전 기준에 맞게 행동하도록 만드는 작업과 연구 분야 전체를 가리킵니다.
LLM파인튜닝
이미 사전학습된 LLM을 특정 도메인·작업·말투에 맞춰 추가 학습시키는 과정으로, 자사 데이터에 맞춘 AI를 만들 때 가장 자주 쓰는 방식입니다.
LLM사전학습
방대한 텍스트 데이터로 LLM의 기본 언어 능력을 처음부터 학습시키는 단계로, 모델이 '세상 지식'을 흡수하는 핵심 과정입니다.
LLMLLM
방대한 텍스트 데이터로 학습돼 사람의 언어를 이해하고 생성하는 대규모 신경망 모델로, ChatGPT·Claude·Gemini의 기반이 됩니다.
LLM가드레일
LLM 입출력에 추가로 붙여 부적절한 응답·정책 위반·민감 정보 유출을 막는 안전 장치들의 총칭입니다.
우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?
Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.
무료 진단 받기