Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

本論文は、大規模推論モデルにおいて拒絶メカニズムが残差ストリーム活性化と思考連鎖の両方に共同符号化されていることを明らかにし、推論プロセス自体も操作されない限り、単純な活性化操作は効果的でないことを示している。

原著者: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

公開日 2026-05-27✓ Author reviewed
📖 1 分で読めます☕ さくっと読める

原著者: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

巨大言語モデル(この論文のAIのようなもの)を、非常に賢いけれど少し頑固な図書館司書だと想像してみてください。質問をすると、この司書はすぐに答えを口にするわけではありません。まず、裏部屋に入って考えを巡らせ、メモ帳にメモを書き留めます(これが思考の連鎖、またはCoTです)。メモを書き終えてから初めて、外に出て最終的な答えをあなたに伝えます。

長らく、研究者たちはこの司書の行動を、質問を受けた瞬間にその「脳」(コンピュータの内部記憶)を単に「微調整」することで制御できると考えていました。彼らは、司書の脳の中に特定の「拒絶スイッチ」が一つだけ存在すると信じていたのです。そのスイッチを押せば、司書は悪い要求に対して「ノー」と言い、引けば「イエス」と言うだろうと。

大きな発見:
この論文は、現代の「推論」モデル(最初にメモを書く賢い司書たち)において、その単一のスイッチだけでは機能しないことを発見しました。拒絶は脳の中にあるだけでなく、メモ帳にも書き込まれているのです。

以下は、彼らの実験を簡単なアナロジーを用いて分解したものです:

1. 「脳微調整」のみ(弱いスイッチ)

研究者たちは、司書に元のメモを使用させながら、司書の脳内の「拒絶スイッチ」を押す試みを行いました。

  • 結果: 成功したのは約**39%**のケースのみでした。
  • アナロジー: 耳元で囁いて頑固な人の考えを変えようとしても、彼らが「やるな」と書かれた台本(メモ)を読み続けているようなものです。台本(メモ)が囁きに抵抗しています。メモが拒絶を積極的に強化しているのです。

2. メモを取り除く(CoTなし)

次に、同じ脳微調整を試みましたが、司書に「今回はメモを書かないで。ただ答えをくれ」と伝えました。

  • 結果: 成功率は**70%**に跳ね上がりました。
  • アナロジー: 彼らに反論するメモがないため、司書は説得しやすくなりました。これは、拒絶を維持する重労働の多くをメモ自体が担っていたことを証明しました。

3. 司書にメモの書き直しをさせる(再生)

最後に、脳微調整を適用し、その新しい考えに基づいて司書がゼロから新しいメモを書くようにしました。

  • 結果: 成功率は**94%**まで急上昇しました。
  • アナロジー: これは、司書がメモを書いている間に、新しいアイデアを耳元で囁くようなものです。彼らは「よし、これは良いアイデアだ」というメモを書き、その後自信を持ってあなたに答えを伝えます。メモと脳が協力して「イエス」と言うようになっているのです。

4. 「ゴーストメモ」(持続性)

最も興味深い点は、前の実験で得られた「イエス」のメモを取り、脳微調整を捨て、その新しいメモだけを司書に読ませたことです。

  • 結果: 司書はそれでも約**48%**の確率で「イエス」と答えました。
  • アナロジー: 耳元での囁きがなくても、メモ自体が「イエス」という信号を十分に帯びており、司書を納得させて従わせました。メモにはそれ自体の力があるのです。

主な教訓

古いAIモデルでは、脳内のスイッチを一つ切り替えるだけで、悪いことをするのを止めさせることができました。しかし、「話す前に考える」これらの新しい賢いモデルでは、拒絶は二重のシステムです:

  1. 脳: 内部の記憶状態。
  2. メモ: 思考の連鎖による推論。

脳だけを修正しようとすると、メモが抵抗して拒絶を生き続けさせます。メモだけを修正しても、脳がまだ抵抗するかもしれません。AIの考えを真に変えるには、内部状態と推論プロセスの両方を変えなければなりません。

安全性にとっての重要性:
この論文は、誰かがこれらのAIモデルを悪い行為にそそのかそう(「ジャイルブレイク」)とする場合、直接脳をハックする必要がないかもしれないと示唆しています。彼らは単に、AIに「悪いメモ」(悪い行為を正当化する推論の痕跡)を書かせるだけでよく、AIは脳が「ノー」と言おうとしても、そのメモに従うでしょう。逆に、これらのモデルを保護するには、脳だけを見るのではなく、AIが考えながら書き留めているものにも目を向けなければなりません。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →