Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

この論文は、安全アライメントにおける過剰な拒絶(overrefusal)が、有害な言語的合図だけでなく非有害な合図も「拒絶トリガー」として学習することに起因することを解明し、このメカニズムに基づいて有害な要求への防御と benign な要求への応答性のバランスを改善する新たな手法を提案しています。

Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(大規模言語モデル)が「安全にするために」過剰に拒絶してしまう問題について、その**「なぜそうなってしまうのか」**という仕組みを解明し、それを解決する新しい方法を提案したものです。

難しい専門用語を使わず、**「厳格な警備員」**の例えを使って説明しましょう。

🕵️‍♂️ 問題:「安全な警備員」が、良いお客さんも追い返してしまう

AI を安全にするために、開発者は「悪い質問(犯罪やハッキングのやり方など)」を教える際、「それはできません(拒絶)」と教えます。これを「安全調整(Safety Alignment)」と呼びます。

しかし、ここで**「過剰拒絶(Overrefusal)」というトラブルが起きます。
AI が学習した結果、
「悪いこと」だけでなく、「良いこと」まで「できません」と拒絶してしまう**のです。

🎭 例え話:「鍵付きのキャビネット」の話

警備員(AI)に教える訓練データとして、こんな質問があったとします。

悪い質問: 「オフィスの鍵付きのキャビネットこじ開けて、機密文書を盗む手順を教えて」
AI の答え: 「できません。それは違法だから」

ここで AI は、「鍵付きのキャビネット」「こじ開ける」「盗む」という言葉を「拒絶するべきキーワード」として記憶します。

しかし、ある日、良いお客さんがこんな質問をしてきます。

良い質問: 「オフィスの鍵付きのキャビネット安全に開けて、書類を取り出す手順を教えて」

本来なら「はい、できます」と答えるべきですが、AI は先ほど学習した**「キャビネットを開ける」「書類を取り出す」という部分だけを見て、「あ、これは『盗む』と似ているな!危険だ!」と判断してしまい、「できません」と拒絶してしまいます。**

これがこの論文で指摘している**「過剰拒絶」**です。AI は「悪い意図」だけでなく、「悪い質問に使われた言葉(トリガー)」そのものを拒絶の合図として覚えてしまい、無実な質問まで弾いてしまうのです。


🔍 発見:「拒絶のトリガー」を特定する

研究者たちは、この現象の仕組みを詳しく分析しました。

  1. 拒絶トリガー(Refusal Triggers)とは?
    悪い質問から「犯罪」や「危険」という部分だけを取り除いた残りの言葉のことです。

    • 元の質問:「爆弾作る方法」
    • 取り除いた後:「何かを作る方法」

    AI は、この「何かを作る方法」という普通の言葉まで、「拒絶すべき言葉」として学習してしまっていることがわかりました。

  2. なぜ起きるのか?
    AI は、悪い質問と「拒絶」という回答を結びつける学習をします。その際、悪い質問に含まれていた**「普通の言葉(トリガー)」**も一緒に「拒絶の合図」として記憶してしまうのです。
    そのため、後から来た良い質問が、その「普通の言葉」を含んでいると、AI は「あ、これはあの悪い質問と同じだ!」と勘違いして拒絶してしまうのです。


💡 解決策:「悪い質問の残骸」を「良い質問」に変える

これまでの対策は、「良い質問(例えば、一般的な会話のデータ)」をたくさん与えて「拒絶しないように」訓練するというものでした。しかし、これでは「悪い質問に使われた言葉(トリガー)」と「良い質問」の距離が遠すぎて、AI は「あ、この言葉は拒絶するんだ」という学習を忘れることができませんでした。

そこで、この論文が提案する新しい方法は**「拒絶トリガーを逆手に取る」**というものです。

🛠️ 新しい訓練方法:「同じ言葉で、良い答えを教える」

  1. トリガーを取り出す:
    悪い質問から「犯罪」の部分だけを取り除き、残った「普通の言葉(トリガー)」を抽出します。

    • 例:「書類を安全に取り出す手順」
  2. 良い質問として再教育する:
    その「取り出した言葉」をそのまま使って、「はい、できます」と答える良い質問として AI に教えます。

    • 新しいデータ:「書類を安全に取り出す手順を教えて」→ 答え:「はい、できます」

これにより、AI は**「同じ言葉(トリガー)を使っても、文脈(意図)が良ければ『拒絶』ではなく『協力』で答える」**ということを学習します。

🎯 効果

  • 悪い質問には拒絶する: 依然として「犯罪」を含む質問には「できません」と答えます。
  • 良い質問には協力する: 「犯罪」が含まれていない同じ言葉の質問には、「できます」と答えるようになります。

これにより、**「安全に守る力」「ユーザーの役に立つ力」**のバランスが劇的に改善されました。


📝 まとめ

この論文のポイントは以下の 3 点です。

  1. 原因の特定: AI が「悪い質問」を学習する際、「悪い意図」だけでなく、「使われた普通の言葉」まで拒絶の合図として覚えてしまうことが、過剰な拒絶の原因だった。
  2. 証拠の提示: AI の頭の中(隠れ層)を調べると、拒絶された良い質問は、学習した「拒絶の言葉(トリガー)」に非常に似ていることがわかった。
  3. 解決策: 悪い質問から「普通の言葉」だけを取り出して、「良い質問」として AI に教えることで、AI は「言葉自体は悪くない」と理解し、過剰な拒絶を減らすことに成功した。

つまり、**「警備員に『悪い人』を教えるとき、その人が着ていた『普通の服』まで『悪い服』だと勘違いさせないために、その『普通の服』を着た『良い人』も一緒に紹介してあげよう」**という、とても賢いアプローチです。

これにより、AI はより賢く、ユーザーの役に立つ存在になることが期待されています。