LLM

蒸留

蒸留は、大きなAIモデルの振る舞いを小さなモデルへ引き継いで、軽く使いやすい形へ縮める学習手法です。

2026年3月13日公開約2分で読めます

まずは、こう考えるとつかみやすいです。

蒸留は、ベテラン社員の仕事ぶりを見本にして、より少人数で回せる担当チームへ要点を引き継ぐような方法です。

ひとことで言うと

蒸留は、高性能だけれど重いモデルの答え方を、小さくて速いモデルへ学ばせる方法です。

どんな場面で使うか

応答速度を上げて推論コストを下げたいとき
エッジ環境や軽量サーバーでも動かしやすくしたいとき
大きなモデルの品質をある程度保ったまま、運用コストを抑えたいとき
用途を絞った小型モデルを用意したいとき

ファインチューニングとの違い

ファインチューニングは、既存モデルを自社用途へ寄せる追加学習です。一方、蒸留は「先生役の大きなモデルの振る舞いを、生徒役の小さなモデルへ移す」ことが主目的です。

つまり、ファインチューニングは性格や得意分野を調整する作業、蒸留は性能の要点を残しつつ軽量化を狙う作業、と考えると分かりやすいです。

実務で気にするポイント

小型化すると、難しいタスクや長い文脈では品質差が出やすい
何を残して何を捨てるかを先に決めないと、ただ精度が落ちた小型モデルになりやすい
速度、GPUコスト、品質を同じ条件で比較して判断する
蒸留後も評価を回し、業務上の最低ラインを満たすか確認する

注意: 蒸留は「小さくしてもほぼ同じ性能が出る」とは限りません。用途に必要な品質を超えられるかを先に決めずに進めると、軽くなっても使えないモデルになることがあります。