Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

この論文は、VideoViT における「成功対失敗」の判断を担う因果回路をメカニズム的解釈手法で解明し、アテンションヘッドが証拠を集約し MLP ブロックが概念を構成するという分散型かつ冗長な回路構造が、単純な分類タスクを超えた隠れた知識の形成と AI の信頼性向上に不可欠であることを示しています。

Sai V R Chereddy

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が本当に何を考えているのか(中身)」**を解明しようとする、非常に面白い研究です。

タイトルを日本語に訳すと**「注意(アテンション)が集め、MLP が組み立てる:ビデオ ViT における『結果』の回路の因果分析」**となります。

これを、難しい専門用語を使わず、日常の例え話で解説しましょう。


🎳 物語の舞台:ボウリングの AI

まず、この研究で使われている AI は、**「ボウリングの動画を見て、それが何のスポーツか(ボウリング)を当てる」**ように訓練されたものです。

実験では、2 種類のボウリング動画を見せました。

  1. ストライク(成功): ボールがピンを全部倒した「大成功」の動画。
  2. ガーター(失敗): ボールが溝に落ちた「大失敗」の動画。

AI は、どちらの動画を見ても正解は**「ボウリング」**です。つまり、外見上の答え(ラベル)は同じです。

しかし、ここがポイント!
AI の内部では、「成功」と「失敗」は、全く違う仕組みで処理されていることがこの論文で発見されました。


🔍 発見された「隠された思考回路」

研究者たちは、AI の頭の中(ニューラルネットワーク)を分解して観察しました。すると、以下のような驚くべき仕組みが見つかりました。

1. 「証拠集め係」と「アイデア組み立て係」の役割分担

AI の内部には、大きく分けて 2 つの種類の部品(層)が働いています。これを工場のラインに例えてみましょう。

  • Attention(アテンション)=「証拠集め係」の探偵たち

    • 役割: 動画のどこを見ればいいかを探します。「ボールが動いている場所」「ピンがある場所」など、必要な情報(証拠)を拾い集めるのが仕事です。
    • 特徴: 彼らは「成功か失敗か」を判断するのではなく、**「必要な材料を集める」**ことに専念しています。
  • MLP(多層パーセプトロン)=「アイデア組み立て係」の職人たち

    • 役割: 探偵が集めてきた証拠を元に、「これは成功だ!」「これは失敗だ!」という結論(概念)を組み立てるのが仕事です。
    • 特徴: ここが最も重要な部分です。集めた情報を加工し、「結果」を明確に定義するのは、この職人たちのチームです。

2. 「増幅の階段」

この研究では、AI の層(階層)を 0 から 12 まで見てみました。

  • 最初の数層(0〜4 層): 単なる「証拠集め」の段階です。
  • 中盤から後半(5〜11 層): ここで**「成功か失敗か」という信号が急激に増幅**されます。まるで、小さな声(証拠)が、職人たちのチームによって、大きな声(明確な結論)に増幅されていくようなイメージです。

🧪 実験:AI の「脳」をいじってみる

研究者たちは、AI の内部をいじくる実験を行いました。

  • 実験 A:重要な部分(ボールやピン)を消す

    • 「ボールがピンに当たる瞬間」の情報を AI から無理やり消しました。
    • 結果: 驚いたことに、AI は**「ボウリング」という答えを間違えませんでした。**
    • 意味: AI は、特定の「目に見える部分」に頼って答えを出しているのではなく、「成功か失敗か」という概念そのものを、内部の別の場所でしっかり理解していたことが分かりました。
  • 実験 B:情報の入れ替え(パッチング)

    • 「成功」の動画から「成功の結論」だけを抜き取り、「失敗」の動画の脳に移植しました。
    • 結果: 「失敗」の動画なのに、AI は**「成功」の信号**を出し始めました。
    • 意味: これは、「MLP(職人たち)」こそが、結果を決定づける主役であることを証明しました。

💡 この研究が教えてくれること(なぜ重要なのか?)

この論文の最大のメッセージは以下の通りです。

  1. AI は「嘘」をついているかもしれない(隠れた知識)

    • AI が「ボウリングです」と言っている表面上の答えは正しくても、その内部では**「成功か失敗か」を非常に詳しく理解しています。**
    • 私たちは「正解を出しているから大丈夫」と思いがちですが、AI は**「私たちが知らない深い理解」を持っている可能性があります。これを「隠れた認知(Hidden Cognition)」**と呼びます。
  2. 単純な対策は効かない

    • もし AI が何か悪いことをしようとした場合、単に「悪い部分」を 1 つ消しただけでは、AI は**「他の部品で同じことをやり遂げてしまう」**可能性があります(今回の実験のように、情報が分散して冗長に備わっているため)。
    • AI を安全にするには、表面の答えだけでなく、**「内部の回路がどう動いているか」**まで深く理解する必要があります。

🎒 まとめ

この論文は、**「AI は、私たちが思っている以上に、動画の『結果』を深く理解している」**と示しました。

まるで、「探偵(Attention)」が現場の証拠を集め、それを「名探偵チーム(MLP)」が分析して「犯人(成功か失敗)」を特定する**ような、高度な分業体制が AI の頭の中で働いているのです。

私たちが AI を社会に安全に導入するためには、この「隠れた思考プロセス」を解明し、監視する技術(機械的解釈可能性)が不可欠だ、という重要な警鐘を鳴らしています。