活用

レイテンシ

AI のレイテンシは、依頼してから最初の返答や完了結果が返るまでの待ち時間です。

2026年3月15日公開約2分で読めます

まずは、こう考えるとつかみやすいです。

相談窓口に依頼してから「確認します」と最初の返事が来るまでの待ち時間のようなものです。

ひとことで言うと

AI のレイテンシは、質問や依頼を出してから、返答が見え始めるまでの待ち時間です。品質が良くても、待ちすぎると使いにくさが強く出ます。

どんな場面で使うか

チャットAIの返答が遅く、会話が途切れて感じるとき
社内検索ボットが資料を引くまで待たされるとき
ツールコーリングを含む処理が何段階も続くとき
AIエージェントに複数手順を任せ、完了まで時間がかかるとき

利用者は「どれだけ賢いか」と同じくらい、「どれだけ待つか」で使い勝手を判断します。そのため、AI の導入では精度だけでなくレイテンシも重要な評価軸になります。

何が遅さの原因になるか

入力が長く、読む量が多い
モデルサイズが大きく、推論に時間がかかる
検索、整形、外部 API 呼び出しが何段階も入る
同時利用が増えて、待ち行列が伸びる

つまり、モデル本体だけでなく、前後の処理全体がレイテンシを決めます。

実務で気にするポイント

最初の一文字が出るまでの時間と、全体完了までの時間を分けて測る
品質比較のベンチマークに速度条件も入れる
遅い処理だけを非同期にするなど、体感待ち時間を減らす設計を考える
検索やツール呼び出しを増やした時は、便利さと待ち時間の交換条件を見直す

注意: 高性能モデルでも、待ち時間が長すぎると現場では使われません。精度だけで採用を決めると、実運用で定着しないことがあります。