LLM학습·정렬업데이트 2026.04.29

RLHF

Reinforcement Learning from Human Feedback

별칭인간 피드백 강화학습선호 학습

한 줄 정의

사람이 응답을 평가·비교한 데이터를 보상 신호로 삼아 LLM을 더 유용하고 안전하게 다듬는 학습 방식으로, ChatGPT 품질의 핵심 비결입니다.

자세히 알아보기

RLHF는 사람의 평가를 활용해 LLM의 행동을 다듬는 정렬 기법입니다. 모델이 만든 두 응답을 사람이 비교해 '어느 쪽이 더 낫다'고 표시하면, 그 데이터로 보상 모델을 학습시키고, 다시 강화학습을 통해 LLM이 그 선호에 맞춰 답하도록 만듭니다.

마케팅 관점에서 의미는 'GPT-3와 ChatGPT의 차이를 만든 결정적인 단계'라는 점입니다. 동일한 모델이라도 RLHF가 적용되면 어조·도움성·안전성이 확연히 달라집니다. 즉, 우리가 ChatGPT에서 느끼는 '말이 잘 통하는 느낌'은 모델 자체보다 RLHF 결과물에 가깝습니다.

최근에는 RLHF 외에도 RLAIF(AI 피드백 활용), DPO(Direct Preference Optimization) 같은 변형이 나오고 있는데, 큰 그림은 비슷합니다. '사람이 원하는 답에 가깝게 모델을 정렬한다'는 목표는 같습니다.

출처

관련 용어

우리 브랜드는 AI 답변에 어떻게 등장하고 있을까요?

무료 진단 받기