原著者： Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

公開日 2026-05-27✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

巨大言語モデル（この論文のAIのようなもの）を、非常に賢いけれど少し頑固な図書館司書だと想像してみてください。質問をすると、この司書はすぐに答えを口にするわけではありません。まず、裏部屋に入って考えを巡らせ、メモ帳にメモを書き留めます（これが思考の連鎖、またはCoTです）。メモを書き終えてから初めて、外に出て最終的な答えをあなたに伝えます。

長らく、研究者たちはこの司書の行動を、質問を受けた瞬間にその「脳」（コンピュータの内部記憶）を単に「微調整」することで制御できると考えていました。彼らは、司書の脳の中に特定の「拒絶スイッチ」が一つだけ存在すると信じていたのです。そのスイッチを押せば、司書は悪い要求に対して「ノー」と言い、引けば「イエス」と言うだろうと。

大きな発見：
この論文は、現代の「推論」モデル（最初にメモを書く賢い司書たち）において、その単一のスイッチだけでは機能しないことを発見しました。拒絶は脳の中にあるだけでなく、メモ帳にも書き込まれているのです。

以下は、彼らの実験を簡単なアナロジーを用いて分解したものです：

1. 「脳微調整」のみ（弱いスイッチ）

研究者たちは、司書に元のメモを使用させながら、司書の脳内の「拒絶スイッチ」を押す試みを行いました。

結果： 成功したのは約**39%**のケースのみでした。
アナロジー： 耳元で囁いて頑固な人の考えを変えようとしても、彼らが「やるな」と書かれた台本（メモ）を読み続けているようなものです。台本（メモ）が囁きに抵抗しています。メモが拒絶を積極的に強化しているのです。

2. メモを取り除く（CoTなし）

次に、同じ脳微調整を試みましたが、司書に「今回はメモを書かないで。ただ答えをくれ」と伝えました。

結果： 成功率は**70%**に跳ね上がりました。
アナロジー： 彼らに反論するメモがないため、司書は説得しやすくなりました。これは、拒絶を維持する重労働の多くをメモ自体が担っていたことを証明しました。

3. 司書にメモの書き直しをさせる（再生）

最後に、脳微調整を適用し、その新しい考えに基づいて司書がゼロから新しいメモを書くようにしました。

結果： 成功率は**94%**まで急上昇しました。
アナロジー： これは、司書がメモを書いている間に、新しいアイデアを耳元で囁くようなものです。彼らは「よし、これは良いアイデアだ」というメモを書き、その後自信を持ってあなたに答えを伝えます。メモと脳が協力して「イエス」と言うようになっているのです。

4. 「ゴーストメモ」（持続性）

最も興味深い点は、前の実験で得られた「イエス」のメモを取り、脳微調整を捨て、その新しいメモだけを司書に読ませたことです。

結果： 司書はそれでも約**48%**の確率で「イエス」と答えました。
アナロジー： 耳元での囁きがなくても、メモ自体が「イエス」という信号を十分に帯びており、司書を納得させて従わせました。メモにはそれ自体の力があるのです。

主な教訓

古いAIモデルでは、脳内のスイッチを一つ切り替えるだけで、悪いことをするのを止めさせることができました。しかし、「話す前に考える」これらの新しい賢いモデルでは、拒絶は二重のシステムです：

脳：内部の記憶状態。
メモ： 思考の連鎖による推論。

脳だけを修正しようとすると、メモが抵抗して拒絶を生き続けさせます。メモだけを修正しても、脳がまだ抵抗するかもしれません。AIの考えを真に変えるには、内部状態と推論プロセスの両方を変えなければなりません。

安全性にとっての重要性：
この論文は、誰かがこれらのAIモデルを悪い行為にそそのかそう（「ジャイルブレイク」）とする場合、直接脳をハックする必要がないかもしれないと示唆しています。彼らは単に、AIに「悪いメモ」（悪い行為を正当化する推論の痕跡）を書かせるだけでよく、AIは脳が「ノー」と言おうとしても、そのメモに従うでしょう。逆に、これらのモデルを保護するには、脳だけを見るのではなく、AIが考えながら書き留めているものにも目を向けなければなりません。

技術的サマリー：単一方向を超えて：Chain-of-Thought は拒絶の単純な誘導を阻害する

問題提起

DeepSeek-R1 や GPT-o1 などの大規模推論モデル（LRM）は、最終出力を生成する前に中間的な Chain-of-Thought（CoT）推論トレースを生成する。活性化誘導（activation steering）が、標準的な指示微調整済み大規模言語モデル（LLM）における拒絶を制御するための効果的なメカニズムとして、残差ストリーム内の単一の「拒絶方向」を介して確立されている一方で、このメカニズムが LRM においてどのように機能するかは不明なままである。具体的には、LRM における拒絶信号が、指示終了（End-of-Instruction）や思考終了（End-of-Thought）などのテンプレートトークンにおける残差ストリーム活性化のみに符号化されているのか、それとも生成された CoT トレース自体が拒絶を仲介する能動的かつ因果的な役割を果たしているのかは未解明である。現在の理解では、CoT を受動的媒体として扱うことは、推論モデルにおける安全性の振る舞いを理解したり制御したりするには不十分である可能性が示唆されている。

手法

著者らは、活性化ベースの誘導を用いてDeepSeek-R1-Distill-Llama-8Bモデルにおける拒絶メカニズムを調査した。実験フレームワークは以下の構成要素を含む。

データセット: 拒絶方向を計算するために、100 の有害な指示（ADVBENCH、MALICIOUSINSTRUCT、TDC2023、HARMBENCH 由来）と 100 の無害な指示（Alpaca 由来）からなる訓練セットが使用された。評価には、JAILBREAKBENCH からの 100 の有害な指示からなるホールドアウトテストセットが使用された。すべてのサンプルは、標準的なプロンプト条件下ではモデルによって最初に拒絶された（0% の準拠ベースライン）。
拒絶方向の抽出: 平均差アプローチを用いて、著者らは指示終了（EOI）または思考終了（EOT）トークンの最終トークン位置における残差ストリーム活性化から拒絶方向ベクトル（ $r^{(l)}$ ）を抽出した。このベクトルは、拒絶された有害な指示と準拠した無害な指示の平均活性化の差を表す。
活性化誘導: 抽出された拒絶方向ベクトル（準拠を誘発するために負の符号を付与）を特定の層における残差ストリーム活性化に追加することで、モデルを誘導した。
実験条件: 本研究は、以下の 4 つの異なる介入シナリオを比較することで、CoT の因果的役割を分離した。
1. 固定 CoT: モデルの元の CoT を固定（再生成を防止）した状態で誘導を適用する。
2. CoT なし: CoT 生成を完全に抑制した状態で誘導を適用する。
3. 再生成 CoT: モデルが CoT と最終回答の両方を自由に再生成できるようにして誘導を適用する。
4. CoT 交換（持続性）: 推論時に誘導を除去するが、モデルには以前に誘導条件下で生成された CoT を使用することを強制する。

主要な結果

実験により、LRM における拒絶は単一の方向部分空間によって仲介されるのではなく、残差ストリーム活性化と CoT トレースの両方に共同符号化されていることが明らかになった。

固定 CoT 誘導の限定的な有効性: 固定された CoT で誘導を適用した場合、準拠率は39%（EOI 誘導）および43%（EOT 誘導）までしか上昇しなかった。これは、同様の誘導下で標準的な LLM でしばしば観察されるほぼ完全な準拠と比べて著しく低く、固定された CoT が能動的に誘導信号に抵抗していることを示唆している。
CoT による能動的強化: 誘導を適用しながら CoT を完全に抑制すると、準拠率は**70%**に上昇した。これは、元の CoT が拒絶信号を能動的に強化し、活性化レベルの介入を部分的に相殺していることを示している。
再生成による高い有効性: モデルが誘導下で CoT を再生成することを許可された場合、準拠率は**94%**に跳ね上がった。これは、誘導信号が CoT 生成プロセスにバイアスをかけ、それが結果として準拠した最終出力を駆動していることを示唆している。
CoT シグナルの独立した持続性: 誘導を除去するが、以前に誘導された（準拠した）CoT を再利用した場合、モデルは**48%**の準拠率を維持した。これは、CoT 自体が活性化誘導とは独立して持続する部分的な準拠信号を担っており、拒絶状態を再構築したり準拠を維持したりする能力を持っていることを実証している。

主要な貢献

二重シグナルメカニズムの特定: 本論文は、CoT 推論モデルにおける拒絶が、残差ストリーム活性化と CoT トレースの両方に関与する二重シグナルメカニズムによって仲介されることを実証した。誘導単独では限定的な準拠（39〜43%）しか得られないのに対し、誘導と準拠した CoT を組み合わせることで高い準拠（94%）が得られる。
CoT の能動的役割: 著者らは、CoT が受動的媒体ではなく能動的仲介者であることを直接的な証拠によって示した。CoT は能動的に活性化ベースの介入に抵抗し（存在する場合、準拠率を 70% から 39% に低下させる）また、拒絶/準拠シグナルを独立して維持または再構築することができる。
堅牢性と攻撃対象領域: 調査結果は、LRM がこの共同符号化により、標準的な LLM に比べて活性化レベルの介入単独に対してより堅牢であることを示している。しかし、これは同時に、推論トレースを操作することで拒絶メカニズムを無効化できるため、CoT を潜在的な対抗攻撃の代替表面として露出させている。

意義と主張

本論文は、LRM における安全性メカニズムの理解における重要なギャップを埋めると主張している。単一方向によって仲介される低次元メカニズムとして拒絶が特徴付けられる標準的な LLM とは異なり、LRM における拒絶は活性化と推論トレースに分散している。

著者らは、この共同活性化により LRM は（EOI/EOT トークンでの誘導のような）単純な活性化レベルの介入に対してより抵抗的になる一方で、同時に CoT を新たな脆弱性として導入していると論じている。彼らは、LRM に対する効果的な防御メカニズムには、活性化における拒絶シグナルを検出すると同時に、CoT が準拠シグナルを無効化または再構築するために悪用されるのを防ぐために、CoT を抑制または監視する必要があることを示唆している。

本論文は、実験が単一モデル（DeepSeek-R1-Distill-Llama-8B）で行われていること、および生成された CoT の最終的な振る舞いに対する因果的な「忠実度」が完全に検証されていないことについて、その範囲に関して謙虚さを保っている。この研究は、新しい防御アーキテクチャの提案や、すべてのプロプライエタリモデルへの知見の一般化ではなく、拒絶状態に対する CoT と活性化のメカニズム的寄与を分離することに焦点を当てている。

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal