ひとことで言うと
プロンプトキャッシュは、システムプロンプトや長い参照資料など、毎回変わらない部分の処理結果を保持しておき、次のリクエストで使い回す仕組みです。同じ内容を何度も計算せずに済むため、コストとレイテンシを下げられます。
どんな場面で使うか
- 長いシステムプロンプトを毎回同じ内容で送り続けているとき
- 社内規定や仕様書など、大きな参照文書を毎回添付して質問させているとき
- 同じ文書に対して複数回の質問を繰り返すバッチ処理のとき
- チャットボットで固定の背景情報を全会話に含めているとき
何が変わるか
キャッシュを使わない場合、リクエストのたびにプロンプト全体を計算します。キャッシュが効いている部分は再計算をスキップするため、トークンの処理コストと最初の返答が出るまでの時間が下がります。
変わらない部分が長いほど、キャッシュの効果が出やすくなります。
実務で気にするポイント
- キャッシュが効くのは変わらない部分だけ。毎回変わる入力部分は別に計算される
- 対応しているかどうかはモデルや API によって異なる
- キャッシュには有効期限があるため、間隔が空きすぎると再計算が走る
- コスト削減を見込む場合は、実際のリクエストパターンで試算してから設計する
注意: プロンプトキャッシュはコスト最適化の手段であり、回答の品質を上げる仕組みではありません。出力を改善したい場合は、プロンプトの内容や設計を見直す必要があります。