ひとことで言うと
RLHF(Reinforcement Learning from Human Feedback)は、人間が「こちらの答えのほうが良い」と評価した結果をモデルにフィードバックして、出力の方向性を調整する学習手法です。現在の多くの LLM の回答品質を支える仕組みです。
どのように動くか
大まかには次の流れになります。
- モデルが複数の回答候補を生成する
- 人間の評価者が「どちらが良いか」を比較・採点する
- その評価をもとに、好ましい回答が出やすい方向へ学習を進める
- この繰り返しで、人間の感覚に近い出力傾向へ近づける
「正解ラベルを直接付けるのが難しい」回答の良し悪しを、比較という形で扱えることが特徴です。
ファインチューニングとの違い
- ファインチューニング
- 正解データを直接学習させて、特定の出力形式や言い回しへ寄せる
- 正解が明確に決まる用途向き
- RLHF
- 人間の比較評価を使って、望ましい振る舞いの方向性を調整する
- 「良い回答かどうか」を単純なラベルで表しにくい場合に向く
実務で気にするポイント
- 評価者のばらつきが大きいと、学習の方向がぶれる
- 評価の基準を事前に文書化しておかないと品質が安定しない
- 人間の評価コストが高く、継続的な運用に負荷がかかる
- 評価者の偏りがそのままモデルの偏りになることがある
- アラインメント の手段の1つとして使われるが、万能ではない
注意: RLHF を使ったとしても、評価者の価値観や偏りがモデルに入り込みます。「どういう回答を良しとするか」の基準設計が、技術そのものと同じくらい重要です。