LLM

RLHF

RLHF は、人間が回答を評価した結果を使って AI の振る舞いを調整する学習手法です。

2026年3月24日公開約2分で読めます

まずは、こう考えるとつかみやすいです。

ベテラン担当者が新人の対応を採点し続け、その積み重ねをフィードバックしながら育てるような育成の仕組みです。

ひとことで言うと

RLHF（Reinforcement Learning from Human Feedback）は、人間が「こちらの答えのほうが良い」と評価した結果をモデルにフィードバックして、出力の方向性を調整する学習手法です。現在の多くの LLM の回答品質を支える仕組みです。

どのように動くか

大まかには次の流れになります。

モデルが複数の回答候補を生成する
人間の評価者が「どちらが良いか」を比較・採点する
その評価をもとに、好ましい回答が出やすい方向へ学習を進める
この繰り返しで、人間の感覚に近い出力傾向へ近づける

「正解ラベルを直接付けるのが難しい」回答の良し悪しを、比較という形で扱えることが特徴です。

ファインチューニングとの違い

ファインチューニング
- 正解データを直接学習させて、特定の出力形式や言い回しへ寄せる
- 正解が明確に決まる用途向き
RLHF
- 人間の比較評価を使って、望ましい振る舞いの方向性を調整する
- 「良い回答かどうか」を単純なラベルで表しにくい場合に向く

実務で気にするポイント

評価者のばらつきが大きいと、学習の方向がぶれる
評価の基準を事前に文書化しておかないと品質が安定しない
人間の評価コストが高く、継続的な運用に負荷がかかる
評価者の偏りがそのままモデルの偏りになることがある
アラインメントの手段の1つとして使われるが、万能ではない

注意: RLHF を使ったとしても、評価者の価値観や偏りがモデルに入り込みます。「どういう回答を良しとするか」の基準設計が、技術そのものと同じくらい重要です。