過学習

過学習は、AIモデルが学習データに過度に適応してしまい、未知のデータに対してうまく動かなくなる状態です。

過学習 のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

過去問だけを丸暗記して本番の試験に臨むようなもので、見たことのある問題には強くても、少し違う問題には対応できなくなる状態です。

ひとことで言うと

過学習は、モデルが学習データの細かいパターンや偏りまで覚えすぎてしまい、実際に使う場面のデータではうまく機能しなくなる現象です。

なぜ起きるのか

モデルは学習データの中でなるべく正解に近い答えを出そうとします。データが少なかったり、学習を続けすぎたりすると、本質的なパターンではなくデータ固有のノイズや偶然の傾向まで学んでしまいます。結果として、見たことのないデータに対して精度が落ちます。

どんな時に起きやすいか

  • 学習データの量が少ないとき
  • ファインチューニング で学習を続けすぎたとき
  • 学習データが実際の使用場面と偏りが大きいとき
  • モデルの複雑さに対してデータが少なすぎるとき

実務で気にするポイント

  • 学習データとは別に、検証用データを用意して精度を測る
  • 学習が進むにつれて検証用データでの精度が下がってきたら過学習のサイン
  • データを増やすか、学習を早めに止めることで対処する
  • 評価 は本番に近いデータで行い、学習データだけで判断しない

注意: 学習データでの精度が高くても、それだけでは本番での品質は保証されません。実際に使う場面に近いデータで評価する仕組みを、最初から組み込む必要があります。