ひとことで言うと
セマンティック検索は、入力された言葉と完全一致する文字列を探すのではなく、意味の近さを使って関連文書を探し出す検索の考え方です。
キーワード検索との違い
| キーワード検索 | セマンティック検索 | |
|---|---|---|
| 探し方 | 文字の一致 | 意味の近さ |
| 「安い宿」で「格安ホテル」は出るか | 出ない | 出やすい |
| 表記ゆれへの強さ | 弱い | 強い |
| 実装の複雑さ | 低い | やや高い |
キーワード検索は、文書内に同じ単語が入っているかを見ます。セマンティック検索は、エンベディング で文章を数値化してから、意味の近さで順位を付けます。
どんな場面で使うか
- 社員が正確な用語を知らなくても社内文書を探したい時
- FAQ に載っていない言い回しの問い合わせにもヒットさせたい時
- RAG の検索部分に使い、LLM への入力精度を上げたい時
- 類似事例や過去報告書を素早く探したい時
実務で気にするポイント
- ベクトル検索 だけでは的外れな文書も候補に入ることがある
- リランカー を組み合わせると精度を補いやすい
- 使う埋め込みモデルによって、日本語の精度が大きく変わる
- 文書の チャンク分割 が粗いと、意味が途中で切れて検索精度が落ちる
- キーワード検索と組み合わせたハイブリッド構成が実務では安定しやすい
注意: セマンティック検索を入れるだけで検索が解決するわけではありません。文書整備、チャンク設計、評価の三点セットで取り組まないと、意味を拾えてもノイズが増えるだけになります。