ひとことで言うと
蒸留は、高性能だけれど重いモデルの答え方を、小さくて速いモデルへ学ばせる方法です。
どんな場面で使うか
- 応答速度を上げて 推論 コストを下げたいとき
- エッジ環境や軽量サーバーでも動かしやすくしたいとき
- 大きなモデルの品質をある程度保ったまま、運用コストを抑えたいとき
- 用途を絞った小型モデルを用意したいとき
ファインチューニングとの違い
ファインチューニング は、既存モデルを自社用途へ寄せる追加学習です。 一方、蒸留は「先生役の大きなモデルの振る舞いを、生徒役の小さなモデルへ移す」ことが主目的です。
つまり、ファインチューニングは性格や得意分野を調整する作業、蒸留は性能の要点を残しつつ軽量化を狙う作業、と考えると分かりやすいです。
実務で気にするポイント
- 小型化すると、難しいタスクや長い文脈では品質差が出やすい
- 何を残して何を捨てるかを先に決めないと、ただ精度が落ちた小型モデルになりやすい
- 速度、GPUコスト、品質を同じ条件で比較して判断する
- 蒸留後も 評価 を回し、業務上の最低ラインを満たすか確認する
注意: 蒸留は「小さくしてもほぼ同じ性能が出る」とは限りません。用途に必要な品質を超えられるかを先に決めずに進めると、軽くなっても使えないモデルになることがあります。