RLHF

AI 개념
1분 읽기

인간 평가자의 피드백을 활용하여 AI 모델을 정렬하는 학습 기법입니다.

다른 이름
Reinforcement Learning from Human Feedback인간 피드백 강화 학습

상세 설명

RLHF(Reinforcement Learning from Human Feedback)는 인간 평가자의 선호도 피드백을 사용하여 AI 모델의 출력을 인간의 의도와 가치에 맞게 정렬(alignment)하는 학습 기법입니다. 보상 모델을 학습한 후 강화 학습으로 LLM을 최적화합니다. ChatGPT의 성공에 핵심적인 역할을 했으며, AI 안전성과 유용성을 크게 향상시킵니다. DPO(Direct Preference Optimization) 등 더 효율적인 대안 방법도 개발되고 있습니다.

관련 용어

LLM파인튜닝alignment