蒸留

蒸留は、大きなAIモデルの振る舞いを小さなモデルへ引き継いで、軽く使いやすい形へ縮める学習手法です。

蒸留 のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

蒸留は、ベテラン社員の仕事ぶりを見本にして、より少人数で回せる担当チームへ要点を引き継ぐような方法です。

ひとことで言うと

蒸留は、高性能だけれど重いモデルの答え方を、小さくて速いモデルへ学ばせる方法です。

どんな場面で使うか

  • 応答速度を上げて 推論 コストを下げたいとき
  • エッジ環境や軽量サーバーでも動かしやすくしたいとき
  • 大きなモデルの品質をある程度保ったまま、運用コストを抑えたいとき
  • 用途を絞った小型モデルを用意したいとき

ファインチューニングとの違い

ファインチューニング は、既存モデルを自社用途へ寄せる追加学習です。 一方、蒸留は「先生役の大きなモデルの振る舞いを、生徒役の小さなモデルへ移す」ことが主目的です。

つまり、ファインチューニングは性格や得意分野を調整する作業、蒸留は性能の要点を残しつつ軽量化を狙う作業、と考えると分かりやすいです。

実務で気にするポイント

  • 小型化すると、難しいタスクや長い文脈では品質差が出やすい
  • 何を残して何を捨てるかを先に決めないと、ただ精度が落ちた小型モデルになりやすい
  • 速度、GPUコスト、品質を同じ条件で比較して判断する
  • 蒸留後も 評価 を回し、業務上の最低ラインを満たすか確認する

注意: 蒸留は「小さくしてもほぼ同じ性能が出る」とは限りません。用途に必要な品質を超えられるかを先に決めずに進めると、軽くなっても使えないモデルになることがあります。