チャンク分割

チャンク分割は、長い文書を検索や要約で扱いやすい小さな単位に分ける前処理です。

チャンク分割 のアイキャッチ図解
まずは、こう考えるとつかみやすいです。

長いマニュアルを丸ごと渡すのではなく、章ごとに付箋で分けて必要なページを探しやすくしておく作業のようなものです。

ひとことで言うと

チャンク分割は、長い文章をそのまま扱わず、意味の切れ目ごとに小分けして AI が拾いやすくする前準備です。

どんな場面で使うか

  • RAG で社内文書から必要な箇所だけ引きたいとき
  • 長いマニュアルや議事録を検索しやすくしたいとき
  • コンテキストウィンドウ に全部は入らない資料を扱うとき
  • FAQ や規程集から、質問に近い段落だけ渡したいとき

文書を丸ごと 1 件として扱うと、欲しい箇所が埋もれやすいです。 そこで、見出しや段落ごとに小分けしておくと、ベクトル検索 や要約の前処理で使いやすくなります。

分け方で何が変わるか

分割は細かければよいわけではありません。

  • 細かすぎると前後関係が切れて意味が薄くなる
  • 粗すぎると無関係な情報まで一緒に入り、検索精度が落ちる
  • 重なりを少し持たせると、文脈切れを減らしやすい

つまり、文書の種類に合った切り方を決めることが重要です。 マニュアル、FAQ、議事録では、ちょうどよい大きさが変わります。

実務で気にするポイント

  • エンベディング 前に、見出しや段落の境目を活かして分ける
  • 検索精度だけでなく、最終回答の読みやすさまで確認する
  • 分割ルールを変えたら、同じ質問セットで 評価 し直す
  • 画像説明や表の注釈など、単独では意味が弱い部分は切り離しすぎない

注意: チャンク分割は裏方の前処理ですが、RAG の使い勝手に直結します。モデルだけ替えても、分け方が雑だと答えの質は伸びにくいです。