ひとことで言うと
トークンは、AI が文章を読むときの「数え方」です。長い文章ほどトークンが増え、料金と待ち時間が上がりやすくなります。
どんな場面で使うか
実務では、同じ「200文字」でもトークン数が変わることがあります。日本語・英語・記号の混在、コード、URL などで分割のされ方が違うためです。
- チャットボット運用で API コストが想定より高くなるとき
- 回答が途中で切れる、要約が粗くなるとき
- RAG で投入する資料量をどこまで増やすか決めるとき
「文字数」だけで見積もると外しやすいので、トークンベースで管理するのが基本です。
実務で気にするポイント
- まず入出力のトークン上限を決める。上限なし運用はコスト事故につながる
- 長文資料はそのまま渡さず、要点抽出や分割でトークンを節約する
- 「回答が短いのに遅い」場合は、入力トークンが大きすぎないか確認する
- 月次でトークン使用量を可視化し、プロンプト改善の効果を測る
注意: トークンはモデルごとに数え方が異なります。別モデルへ切り替えると、同じ文章でもコストや上限到達のしやすさが変わるため、再計測せずに本番反映しないでください。