Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis

本論文は、機械的解釈性の手法を用いた因果的介入実験により、トランスフォーマーモデルにおける「想起」と「推論」が、それぞれ異なるが相互作用する回路に依存していることを初めて実証したものである。

Harshwardhan Fartale, Ashish Kattamuri, Rahul Raja, Arpita Vats, Ishita Prasad, Akshata Kishore Moharir

公開日 2026-03-16
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の AI(大規模言語モデル)が**「記憶(思い出)」「推理(考えること)」**という 2 つの異なる能力を、どのようにして内部で使い分けているのかを解明した面白い研究です。

まるで、AI の頭の中を「X 線」で透かして、どこが記憶を司り、どこが論理を働かせているのかを詳しく調べたような内容です。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


🧠 AI の頭の中は「工場」のようなもの

この研究では、AI を巨大な**「知能工場」**だと想像してみてください。この工場には 28 階建てのフロア(レイヤー)があり、それぞれのフロアで異なる作業が行われています。

研究者たちは、この工場が「過去の知識を引っ張り出す(記憶)」作業と、「新しい問題を解く(推理)」作業を、同じ機械で雑にやっているのか、それとも専用の機械や担当者がいるのかを突き止めようとしたのです。

🔍 実験:2 つの「テスト」で AI を試す

研究者は、AI に 2 種類のテストを行いました。

  1. 「記憶テスト」: 「フランスの首都はどこ?」という、答えが決まっている事実を問う問題。
    • 例え: 辞書をひくような作業。
  2. 「推理テスト」: 見知らぬ言語のルールを、いくつかの例から推測して新しい文を作る問題(言語オリンピックの問題など)。
    • 例え: 探偵が手がかりから犯人を推理するような、頭を使う作業。

🏭 発見:工場内の「役割分担」がはっきりしていた!

AI の頭の中を詳しく調べたところ、驚くべき**「役割分担」**が見つかりました。

  • 1 階〜7 階(初期のフロア):「図書館係」
    • ここは**「記憶(Recall)」**の専門エリアです。
    • 過去の知識や事実を素早く引き出す役割を担っています。ここを壊すと、AI は「フランスの首都」を答えられなくなります。
  • 17 階〜28 階(深いフロア):「探偵事務所」
    • ここは**「推理(Reasoning)」**の専門エリアです。
    • 複雑なルールを組み立てたり、新しい結論を導き出したりする役割です。ここを壊すと、AI は論理的な問題を解けなくなります。
  • 中間のフロア
    • 記憶と推理が混ざり合う、過渡的なエリアです。

さらに、工場内の**「特定の機械(アテンションヘッド)」「特定の作業者(ニューロン)」**も、この 2 つの作業のどちらか一方に特化していることがわかりました。まるで、ある機械は「本を並べる」ことしかできず、別の機械は「パズルを解く」ことしかできないように、AI の内部も細かく分業されていたのです。

✂️ 実験:「ピンポイント手術」で確認

研究者たちは、この発見が本当かどうかを確認するために、**「ピンポイント手術(介入)」**を行いました。

  • 「記憶係」の機械を止めてみた
    • 結果:AI は「フランスの首都」を答えられなくなりましたが、「推理テスト」は完璧に解けました
  • 「推理係」の機械を止めてみた
    • 結果:AI は複雑な問題を解けなくなりましたが、「事実を思い出す」ことはできました

これは、AI が「記憶」と「推理」を、別の回路を使って行っているという決定的な証拠となりました。

🌟 この研究がすごい理由

これまで、「AI は記憶も推理も全部混ぜこぜにやっているのではないか?」と言われていましたが、この研究は**「実は、頭の中で明確に役割分担がなされている!」**と証明しました。

  • なぜ重要なのか?
    • もし AI が嘘をついた(ハルシネーション)とき、それが「記憶の間違い」なのか「推理のミス」なのかを区別できるようになります。
    • 信頼できる AI を作るために、必要な部分だけ強化したり、不要な部分を修正したりする「精密な修理」が可能になります。

まとめ

この論文は、**「AI の頭の中は、記憶を司る『図書館』と、推理を司る『探偵事務所』が、階層ごとに上手に分離して動いている」**という事実を突き止めました。

これにより、私たちは AI というブラックボックスを、より理解しやすく、信頼できる存在へと進化させるための道筋が見えてきたのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →