ひとことで言うと
AI のレイテンシは、質問や依頼を出してから、返答が見え始めるまでの待ち時間です。品質が良くても、待ちすぎると使いにくさが強く出ます。
どんな場面で使うか
- チャットAIの返答が遅く、会話が途切れて感じるとき
- 社内検索ボットが資料を引くまで待たされるとき
- ツールコーリング を含む処理が何段階も続くとき
- AIエージェント に複数手順を任せ、完了まで時間がかかるとき
利用者は「どれだけ賢いか」と同じくらい、「どれだけ待つか」で使い勝手を判断します。 そのため、AI の導入では精度だけでなくレイテンシも重要な評価軸になります。
何が遅さの原因になるか
- 入力が長く、読む量が多い
- モデルサイズが大きく、推論 に時間がかかる
- 検索、整形、外部 API 呼び出しが何段階も入る
- 同時利用が増えて、待ち行列が伸びる
つまり、モデル本体だけでなく、前後の処理全体がレイテンシを決めます。
実務で気にするポイント
- 最初の一文字が出るまでの時間と、全体完了までの時間を分けて測る
- 品質比較の ベンチマーク に速度条件も入れる
- 遅い処理だけを非同期にするなど、体感待ち時間を減らす設計を考える
- 検索やツール呼び出しを増やした時は、便利さと待ち時間の交換条件を見直す
注意: 高性能モデルでも、待ち時間が長すぎると現場では使われません。精度だけで採用を決めると、実運用で定着しないことがあります。