トークン

トークンは、LLM が文章を処理するときの最小単位で、コスト・速度・回答品質を左右する基本指標です。

トークン のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

宅配便の送料が箱の数で変わるように、LLM は文字数ではなくトークンの数で処理負荷と料金が決まります。

ひとことで言うと

トークンは、AI が文章を読むときの「数え方」です。長い文章ほどトークンが増え、料金と待ち時間が上がりやすくなります。

どんな場面で使うか

実務では、同じ「200文字」でもトークン数が変わることがあります。日本語・英語・記号の混在、コード、URL などで分割のされ方が違うためです。

  • チャットボット運用で API コストが想定より高くなるとき
  • 回答が途中で切れる、要約が粗くなるとき
  • RAG で投入する資料量をどこまで増やすか決めるとき

「文字数」だけで見積もると外しやすいので、トークンベースで管理するのが基本です。

実務で気にするポイント

  • まず入出力のトークン上限を決める。上限なし運用はコスト事故につながる
  • 長文資料はそのまま渡さず、要点抽出や分割でトークンを節約する
  • 「回答が短いのに遅い」場合は、入力トークンが大きすぎないか確認する
  • 月次でトークン使用量を可視化し、プロンプト改善の効果を測る

注意: トークンはモデルごとに数え方が異なります。別モデルへ切り替えると、同じ文章でもコストや上限到達のしやすさが変わるため、再計測せずに本番反映しないでください。