ひとことで言うと
推論は、すでに学習が終わっているAIモデルに質問や入力を渡して、実際の出力を返してもらう処理です。
どんな場面で使うか
- チャットAIに質問して回答を受け取るとき
- 文章要約や分類をその場で実行したいとき
- 画像や音声を解析して結果を返したいとき
- API 経由でモデルを呼び出して業務フローに組み込みたいとき
利用者から見ると「AI を使った瞬間」がこの推論です。 モデルを作る工程より、日々の利用ではこちらの時間やコストのほうが意識されやすいです。
学習との違い
学習は、モデルに大量のデータを見せて振る舞いを身につけさせる工程です。 推論は、その学習済みモデルを使って、実際の入力から答えを返す工程です。
たとえば LLM では、学習が終わっていても、毎回の質問に対してどんな語を続けるかを計算して返しています。 その「本番で答えを出す側」が推論です。
実務で気にするポイント
- 推論回数が増えるほど、レイテンシ とコストが効いてくる
- モデルサイズが大きいほど、精度だけでなく待ち時間も確認したい
- 入力が長いと、処理時間や Token 消費が増えやすい
- ファインチューニング をしても、推論コストの見直しは別で必要
注意: 推論は「答えを返す工程」ですが、内容が正しいとは限りません。推論が速くても、重要な業務では検証や確認の流れを外せません。