LLM학습·정렬업데이트 2026.04.29

RLHF

Reinforcement Learning from Human Feedback

별칭인간 피드백 강화학습선호 학습

한 줄 정의

사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.

자세히 알아보기

RLHF는 사람의 평가를 활용해 LLM의 행동을 다듬는 정렬 기법입니다. 모델이 만든 두 응답을 사람이 비교해 '어느 쪽이 더 낫다'고 표시하면, 그 데이터로 보상 모델을 학습시키고, 다시 강화학습을 통해 LLM이 그 선호에 맞춰 답하도록 만듭니다.

마케팅 관점에서 의미는 'GPT-3와 ChatGPT의 차이를 만든 결정적인 단계'라는 사실입니다. 동일한 모델이라도 RLHF가 적용되면 어조·도움성·안전성이 확연히 달라집니다. 즉, 우리가 ChatGPT에서 느끼는 '말이 잘 통하는 느낌'은 모델 자체보다 RLHF 결과물에 가깝습니다.

최근에는 RLHF 외에도 RLAIF(AI 피드백 활용), DPO(Direct Preference Optimization) 같은 변형이 나오고 있는데, 큰 그림은 비슷합니다. '사람이 원하는 답에 가깝게 모델을 정렬한다'는 목표는 같습니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

Villion은 ChatGPT·Perplexity·AI Overview에서 브랜드 인용 현황을 진단하고, 인용률과 언급 점유율을 끌어올리는 작업을 자동화합니다.

무료 진단 받기