ひとことで言うと
アテンションは、LLM が次の単語を予測するとき、入力の中でどの部分を重く扱うかを決める計算の仕組みです。現在の言語モデルの性能を支える核心的な機構です。
どのように動くか
たとえば「彼女はケーキを焼いた。それはとても美味しかった」という文を処理するとき、「それ」が何を指すかを判断するためにモデルは前の文脈の中から「ケーキ」に高い注意を向けます。
アテンションは、すべてのトークン間の関係を計算してから、関係の強さに応じて情報をまとめます。これが離れた位置にある情報を関連付けられる理由です。
コンテキストウィンドウとの関係
アテンションはコンテキストウィンドウに入っているすべてのトークンを対象に計算を行います。そのため、コンテキストが長いほど計算量が大きくなり、処理時間やコストに影響します。
実務で気にするポイント
- アテンションの仕組み上、コンテキストが長くなると計算量が増える
- 重要な指示や情報は文脈の先頭か末尾に置くと反映されやすい傾向がある
- 文章が長くても、すべての部分が均等に参照されるわけではない
- モデルの性能差の多くは、アテンションの設計や学習データの違いから生まれる
注意: アテンションは「どこを見るか」を学習で身につける仕組みです。モデルが何を重視するかは外から直接制御できないため、重要な情報の配置や表現を工夫することが実務での対処になります。