ひとことで言うと
チャンク分割は、長い文章をそのまま扱わず、意味の切れ目ごとに小分けして AI が拾いやすくする前準備です。
どんな場面で使うか
- RAG で社内文書から必要な箇所だけ引きたいとき
- 長いマニュアルや議事録を検索しやすくしたいとき
- コンテキストウィンドウ に全部は入らない資料を扱うとき
- FAQ や規程集から、質問に近い段落だけ渡したいとき
文書を丸ごと 1 件として扱うと、欲しい箇所が埋もれやすいです。 そこで、見出しや段落ごとに小分けしておくと、ベクトル検索 や要約の前処理で使いやすくなります。
分け方で何が変わるか
分割は細かければよいわけではありません。
- 細かすぎると前後関係が切れて意味が薄くなる
- 粗すぎると無関係な情報まで一緒に入り、検索精度が落ちる
- 重なりを少し持たせると、文脈切れを減らしやすい
つまり、文書の種類に合った切り方を決めることが重要です。 マニュアル、FAQ、議事録では、ちょうどよい大きさが変わります。
実務で気にするポイント
- エンベディング 前に、見出しや段落の境目を活かして分ける
- 検索精度だけでなく、最終回答の読みやすさまで確認する
- 分割ルールを変えたら、同じ質問セットで 評価 し直す
- 画像説明や表の注釈など、単独では意味が弱い部分は切り離しすぎない
注意: チャンク分割は裏方の前処理ですが、RAG の使い勝手に直結します。モデルだけ替えても、分け方が雑だと答えの質は伸びにくいです。