Block-Recurrent Dynamics in Vision Transformers

本論文は、ビジョン・トランスフォーマー(ViT)の深層構造が本質的に少数のブロックの反復的適用として記述可能であるという「ブロック再帰的仮説」を提唱し、これを検証する「Raptor」モデルの成功や動的解釈可能性の新たな知見を通じて、ViT の計算メカニズムを低次元の力学系として理解する枠組みを確立したものである。

Mozes Jacobs, Thomas Fel, Richard Hakim, Alessandra Brondetta, Demba Ba, T. Andy Keller

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧩 核心となる発見:「ブロック・リカレント仮説」とは?

通常、AI は何十層もの「階層(レイヤー)」を積み重ねて画像を認識します。まるで、100 人の異なる職人が順番に作業して、最終的に完成品を作るようなイメージです。

しかし、この論文は**「実は、その 100 人の職人のうち、たった 2〜3 人の『天才職人』が、同じ作業を何回も繰り返しているだけではないか?」**と提案しています。

これを**「ブロック・リカレント仮説(BRH)」**と呼んでいます。
「リカレント(再帰的)」とは、「同じことを繰り返す」という意味です。

🏗️ 例え話:工場のライン

  • 従来の考え方: 100 工程ある巨大な工場があり、工程 1 から 100 まですべての機械が全く違う部品を作っている。
  • この論文の発見: よく見ると、工程 1〜30 は「A さん」が、31〜70 は「B さん」が、71〜100 は「C さん」が担当している。しかも、A さんは自分の作業を 30 回繰り返しているだけだ!
  • 結論: 100 種類の機械を用意しなくても、**「A さん、B さん、C さんの 3 人だけ」**を何回も順番に回せば、同じ結果が得られることがわかったのです。

🔍 彼らはどうやってこれを見つけたのか?

1. 「似ている」を見つける(写真の比較)

研究者たちは、AI が画像を処理する過程で、各層(各工程)で「何を見ているか(特徴)」を記録しました。そして、層と層の間で「どのくらい似ているか」を比較しました。

  • 発見: 層と層の似ている度合いをグラフにすると、**「ブロック状」**の模様が見えました。
    • 最初の 10 層はみんな似ている。
    • 次の 30 層はまた別の似ているグループ。
    • 最後の 20 層はまた別のグループ。
    • つまり、AI は「ある期間」は同じような思考プロセスを繰り返していることがわかりました。

2. 「Raptor(ラプトル)」という実験

「似ている」だけでは、本当に同じ作業をしているとは限りません(見た目が似ていても、中身が違うかもしれないから)。そこで、彼らは**「Raptor」**という新しい AI を作って実験しました。

  • 実験内容: 元の巨大な AI(100 層)の代わりに、**「たった 2 つのブロック(職人)」**だけを何回も繰り返して使う AI を作りました。
  • 結果: 驚くべきことに、この「2 つの職人」を繰り返すだけで、元の巨大な AI と**ほぼ同じ性能(96% 以上)**を再現できました!
    • これは、AI が「100 層分の複雑な計算」をしているのではなく、「2 つの単純な計算を繰り返しているだけ」であることを証明しました。

🌊 AI の頭の中はどう動いているのか?(動的な解釈)

この発見をもとに、AI の頭の中を「川の流れ」のように分析しました。

  1. 目的地への収束(コンパス):
    AI が画像を処理する過程は、川が海(正解の答え)に向かって流れていくようなものです。最初はバラバラに流れていても、最後は**「クラスごとの谷(盆地)」**に落ち着きます。少し石を投げて(ノイズを加えても)も、川は元の道に戻ろうとする「自己修正」の力を持っています。

  2. 役割の分化(リーダーと兵隊):

    • CLS トークン(リーダー): 画像全体の結論をまとめる役目。この「リーダー」は、最後の瞬間まで鋭く方向転換を繰り返して、最終的な答えを決定します。
    • パッチ トークン(兵隊): 画像の一部分を担当する役目。これらは「リーダー」に追随するように、最後の方で非常に仲良く(一様に)動き始めます。まるで群れ(群衆)が同じ方向を向くような現象です。
  3. シンプルになる(次元の縮小):
    処理が進むにつれて、AI の思考は複雑な高次元の世界から、**「低次元の単純な道」**へと収束していきます。つまり、最初は複雑に考えすぎていたのが、最後は「シンプルで本質的な答え」に落ち着くのです。


💡 なぜこれが重要なのか?

  1. AI はもっとシンプルだった:
    私たちは AI を「巨大で複雑なブラックボックス」だと思っていましたが、実は**「小さな単純なプログラムを繰り返しているだけ」**だったかもしれません。これは、AI の仕組みを理解しやすくなる大きなヒントです。

  2. 安全と効率:
    もし AI が「単純な繰り返し」で動いているなら、その仕組みを説明しやすく、安全性も検証しやすくなります。また、計算コストを下げたり、より効率的な AI を作ったりする道が開けます。

  3. 新しい視点:
    この研究は、AI を「静的な機械」ではなく、「時間とともに変化する動的なシステム(流れる川や成長する植物)」として捉える新しい視点を提供しました。

📝 まとめ

この論文は、**「巨大な画像認識 AI は、実は『たった数人の職人』が『同じ作業』を何回も繰り返しているだけで動いている」**という驚きの事実を突き止めました。

まるで、100 段ある階段を登るのに、実は「3 段の階段」を 30 回繰り返して登っているのと同じです。この発見は、AI のブラックボックスを解き明かし、よりシンプルで安全な未来の AI 作りへの第一歩となるでしょう。