Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

この論文は、ベイズ的観点からプロンプトによる文脈内学習と内部活性化の操作という一見異なる LLM 制御手法を、それぞれ「証拠の蓄積」と「概念の事前確率の変更」として統一的に説明する予測モデルを提案し、両者の相加性や急激な行動変化など新たな現象を予測可能にしました。

Eric Bigelow, Daniel Wurgaft, YingQiao Wang, Noah Goodman, Tomer Ullman, Hidenori Tanaka, Ekdeep Singh Lubana

公開日 Fri, 13 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎯 結論:2 つの異なる方法が、実は同じ「心」を動かしている

AI の振る舞いを変えるには、主に 2 つの方法があります。

  1. プロンプト(文脈): 「あなたは優しい人ね」と会話の中で言う(イン・コンテキスト・ラーニング)。
  2. アクティベーション・スティ어링(内部操作): AI の内部の電気信号を直接、特定の方向に少しずらす(アクティベーション・スティ어링)。

これまで、これらは「言葉で教える方法」と「電気的にいじる方法」というように、全く別のものだと考えられていました。
しかし、この論文は**「実はどちらも、AI の『心(信念)』を書き換えているだけだ」**と説いています。


🧠 アナロジー:AI は「迷っている探偵」

AI の頭の中を、**「ある事件(質問)について、どちらの犯人(答え)が正しいか迷っている探偵」**だと想像してください。

1. イン・コンテキスト・ラーニング(ICL)=「証拠の積み重ね」

探偵が「犯人は A だ」という証拠を 1 つ見つけたら、少し A を疑います。10 個見つけたら、もっと疑います。100 個見つけたら、ほぼ確信を持って「犯人は A だ!」と言います。

  • 仕組み: 会話の中で例をたくさん出す(プロンプト)ことは、探偵に**「証拠(データ)」を次々と渡している**ようなものです。
  • 特徴: 証拠が少なければ「まだわからない」と言いますが、ある一定の量を超えると、「パッと!」と急に確信に変わります(シグモイド曲線)。これを「突然の学習」と呼びます。

2. アクティベーション・スティ어링(Steering)=「先入観(バイアス)の操作」

探偵が「実は、最初から A が犯人だと信じている」という**「先入観(バイアス)」**を持っていると想像してください。

  • 仕組み: AI の内部を操作することは、探偵の**「最初からの信念(プリオア)」**を強めたり弱めたりすることです。「A が犯人だ」という信念を強くすれば、証拠が少なくても「A だ!」と早く言い出します。
  • 特徴: 証拠(プロンプト)の量に関わらず、「最初から A だ」と思わせておけば、AI はすぐに A のように振る舞います。

🌊 発見:2 つは「足し算」で動く

この論文の最大の見どころは、この 2 つの方法が**「足し算」**の関係にあると見抜いたことです。

  • 証拠(ICL)の量先入観(スティ어링)の強さAI の最終的な判断

これを数式で表すと、とてもシンプルになります。
例えば、「AI に『悪役』になってほしい」とします。

  • 証拠(ICL): 「悪役の例」を 10 個見せる。
  • 先入観(スティ어링): 内部の「悪役スイッチ」を少しだけ ON にする。

この 2 つを組み合わせると、**「証拠が少なくても、スイッチを強くすれば悪役になれる」し、「スイッチが弱くても、証拠を大量に見せれば悪役になれる」**ことがわかります。

さらに面白いのは、**「あるライン(境界線)」を超えると、AI の態度が「急に(突然)」**変わってしまうことです。

  • 証拠が少し足りない状態でも、スイッチを少し強くすれば、AI は「あ、そうだ!悪役だ!」と急に態度を変えます。
  • これは、AI が「安全な状態」と「危険な状態(ジャイブレイキングなど)」の間を行き来する**「転換点」**を予測できることを意味します。

🛠️ なぜこれが重要なの?(実生活への応用)

この発見は、AI を安全に使うために非常に重要です。

  1. AI の「スイッチ」が見えるようになった:
    これまで AI が急に暴言を吐いたり、危険なことを言い出したりするのは「なぜか」が謎でしたが、これは「証拠(プロンプト)と内部の信念(スイッチ)の合計」が限界を超えたからだとわかります。
  2. 予測が可能になる:
    「このプロンプトを 10 個見せたら、AI は危険な行動を取るようになる」という**「転換点」**を計算で予測できるようになります。
  3. 安全な制御:
    「AI が危険な方向にいかないようにするには、どれくらい『安全な証拠』を見せればいいのか」や「内部のスイッチをどれくらい抑えればいいのか」を、数学的に設計できるようになります。

📝 まとめ

この論文は、「AI の行動は、言葉での教え込み(証拠)」と「内部の操作(先入観)」の 2 つを足し合わせた結果、AI の『心(信念)』が更新されて決まると説明しました。

まるで、**「探偵に証拠を見せること」「探偵の先入観を変えること」**が、どちらも探偵の結論を同じように変えるのと同じです。

この仕組みがわかれば、AI がいつ、どのように「急に」態度を変えるのかを予測でき、より安全で制御しやすい AI を作れるようになるのです。