レイテンシ

AI のレイテンシは、依頼してから最初の返答や完了結果が返るまでの待ち時間です。

レイテンシ のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

相談窓口に依頼してから「確認します」と最初の返事が来るまでの待ち時間のようなものです。

ひとことで言うと

AI のレイテンシは、質問や依頼を出してから、返答が見え始めるまでの待ち時間です。品質が良くても、待ちすぎると使いにくさが強く出ます。

どんな場面で使うか

  • チャットAIの返答が遅く、会話が途切れて感じるとき
  • 社内検索ボットが資料を引くまで待たされるとき
  • ツールコーリング を含む処理が何段階も続くとき
  • AIエージェント に複数手順を任せ、完了まで時間がかかるとき

利用者は「どれだけ賢いか」と同じくらい、「どれだけ待つか」で使い勝手を判断します。 そのため、AI の導入では精度だけでなくレイテンシも重要な評価軸になります。

何が遅さの原因になるか

  • 入力が長く、読む量が多い
  • モデルサイズが大きく、推論 に時間がかかる
  • 検索、整形、外部 API 呼び出しが何段階も入る
  • 同時利用が増えて、待ち行列が伸びる

つまり、モデル本体だけでなく、前後の処理全体がレイテンシを決めます。

実務で気にするポイント

  • 最初の一文字が出るまでの時間と、全体完了までの時間を分けて測る
  • 品質比較の ベンチマーク に速度条件も入れる
  • 遅い処理だけを非同期にするなど、体感待ち時間を減らす設計を考える
  • 検索やツール呼び出しを増やした時は、便利さと待ち時間の交換条件を見直す

注意: 高性能モデルでも、待ち時間が長すぎると現場では使われません。精度だけで採用を決めると、実運用で定着しないことがあります。