安全性

モデレーション

モデレーションは、AIへの入力やAIからの出力に不適切・危険な内容がないかを判定し、制御する仕組みです。

2026年3月17日公開約2分で読めます

まずは、こう考えるとつかみやすいです。

モデレーションは、イベント会場の入場チェックや持ち込み検査のように、危ないものをそのまま通さないための関所です。

ひとことで言うと

モデレーションは、AI に渡す前の入力や、AI が出した後の出力を確認して、危険な内容を止めたり弱めたりする仕組みです。暴言、個人情報、違法行為の助長、社内ルール違反などを、そのまま通さないために使われます。

どんな場面で使うか

一般ユーザーが入力するチャットボットを公開するとき
AI に顧客向け文面を書かせるとき
社内文書を扱う AI で、機密情報の混入を避けたいとき
不適切入力を受けても危険な応答を返さないようにしたいとき

ガードレールとの違い

モデレーション
- 不適切な内容を検知して通すか止めるか判断する具体的な処理
- 入力前、出力後のチェックとして置かれることが多い
ガードレール
- モデレーションを含む、より広い安全制御の設計
- ルール、ブロック条件、人手確認まで含めて考える

モデレーションは、ガードレールの中でも特に「内容検査」を担当する部品です。

実務で気にするポイント

誤検知で必要な内容まで止めないよう、業務に合う閾値調整が必要
PII や機密情報を検知した時のマスク方針を決める
プロンプトインジェクションのように、内容が自然でも危険な指示が混ざるケースを想定する
重要業務ではヒューマン・イン・ザ・ループを組み合わせる
全体方針としては AIガバナンスに沿って運用しないと判断がぶれやすい

注意: モデレーションは万能フィルターではありません。検知漏れも過剰遮断も起こるので、ログ確認と定期調整を前提に運用してください。