プロンプトキャッシュ

プロンプトキャッシュは、毎回同じプロンプト部分の再計算を省くことで、コストと待ち時間を下げる仕組みです。

プロンプトキャッシュ のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

毎回同じ書類を最初から読み直さず、前回読んだ部分のメモを手元に置いておくことで、差分だけ確認するようなやり方です。

ひとことで言うと

プロンプトキャッシュは、システムプロンプトや長い参照資料など、毎回変わらない部分の処理結果を保持しておき、次のリクエストで使い回す仕組みです。同じ内容を何度も計算せずに済むため、コストとレイテンシを下げられます。

どんな場面で使うか

  • 長いシステムプロンプトを毎回同じ内容で送り続けているとき
  • 社内規定や仕様書など、大きな参照文書を毎回添付して質問させているとき
  • 同じ文書に対して複数回の質問を繰り返すバッチ処理のとき
  • チャットボットで固定の背景情報を全会話に含めているとき

何が変わるか

キャッシュを使わない場合、リクエストのたびにプロンプト全体を計算します。キャッシュが効いている部分は再計算をスキップするため、トークンの処理コストと最初の返答が出るまでの時間が下がります。

変わらない部分が長いほど、キャッシュの効果が出やすくなります。

実務で気にするポイント

  • キャッシュが効くのは変わらない部分だけ。毎回変わる入力部分は別に計算される
  • 対応しているかどうかはモデルや API によって異なる
  • キャッシュには有効期限があるため、間隔が空きすぎると再計算が走る
  • コスト削減を見込む場合は、実際のリクエストパターンで試算してから設計する

注意: プロンプトキャッシュはコスト最適化の手段であり、回答の品質を上げる仕組みではありません。出力を改善したい場合は、プロンプトの内容や設計を見直す必要があります。