Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🧩 核心となる発見：「ブロック・リカレント仮説」とは？

通常、AI は何十層もの「階層（レイヤー）」を積み重ねて画像を認識します。まるで、100 人の異なる職人が順番に作業して、最終的に完成品を作るようなイメージです。

しかし、この論文は**「実は、その 100 人の職人のうち、たった 2〜3 人の『天才職人』が、同じ作業を何回も繰り返しているだけではないか？」**と提案しています。

これを**「ブロック・リカレント仮説（BRH）」**と呼んでいます。
「リカレント（再帰的）」とは、「同じことを繰り返す」という意味です。

🏗️ 例え話：工場のライン

従来の考え方: 100 工程ある巨大な工場があり、工程 1 から 100 まですべての機械が全く違う部品を作っている。
この論文の発見: よく見ると、工程 1〜30 は「A さん」が、31〜70 は「B さん」が、71〜100 は「C さん」が担当している。しかも、A さんは自分の作業を 30 回繰り返しているだけだ！
結論: 100 種類の機械を用意しなくても、**「A さん、B さん、C さんの 3 人だけ」**を何回も順番に回せば、同じ結果が得られることがわかったのです。

🔍 彼らはどうやってこれを見つけたのか？

1. 「似ている」を見つける（写真の比較）

研究者たちは、AI が画像を処理する過程で、各層（各工程）で「何を見ているか（特徴）」を記録しました。そして、層と層の間で「どのくらい似ているか」を比較しました。

発見: 層と層の似ている度合いをグラフにすると、**「ブロック状」**の模様が見えました。
- 最初の 10 層はみんな似ている。
- 次の 30 層はまた別の似ているグループ。
- 最後の 20 層はまた別のグループ。
- つまり、AI は「ある期間」は同じような思考プロセスを繰り返していることがわかりました。

2. 「Raptor（ラプトル）」という実験

「似ている」だけでは、本当に同じ作業をしているとは限りません（見た目が似ていても、中身が違うかもしれないから）。そこで、彼らは**「Raptor」**という新しい AI を作って実験しました。

実験内容: 元の巨大な AI（100 層）の代わりに、**「たった 2 つのブロック（職人）」**だけを何回も繰り返して使う AI を作りました。
結果: 驚くべきことに、この「2 つの職人」を繰り返すだけで、元の巨大な AI と**ほぼ同じ性能（96% 以上）**を再現できました！
- これは、AI が「100 層分の複雑な計算」をしているのではなく、「2 つの単純な計算を繰り返しているだけ」であることを証明しました。

🌊 AI の頭の中はどう動いているのか？（動的な解釈）

この発見をもとに、AI の頭の中を「川の流れ」のように分析しました。

目的地への収束（コンパス）:
AI が画像を処理する過程は、川が海（正解の答え）に向かって流れていくようなものです。最初はバラバラに流れていても、最後は**「クラスごとの谷（盆地）」**に落ち着きます。少し石を投げて（ノイズを加えても）も、川は元の道に戻ろうとする「自己修正」の力を持っています。
役割の分化（リーダーと兵隊）:
- CLS トークン（リーダー）: 画像全体の結論をまとめる役目。この「リーダー」は、最後の瞬間まで鋭く方向転換を繰り返して、最終的な答えを決定します。
- パッチトークン（兵隊）: 画像の一部分を担当する役目。これらは「リーダー」に追随するように、最後の方で非常に仲良く（一様に）動き始めます。まるで群れ（群衆）が同じ方向を向くような現象です。
シンプルになる（次元の縮小）:
処理が進むにつれて、AI の思考は複雑な高次元の世界から、**「低次元の単純な道」**へと収束していきます。つまり、最初は複雑に考えすぎていたのが、最後は「シンプルで本質的な答え」に落ち着くのです。

💡 なぜこれが重要なのか？

AI はもっとシンプルだった:
私たちは AI を「巨大で複雑なブラックボックス」だと思っていましたが、実は**「小さな単純なプログラムを繰り返しているだけ」**だったかもしれません。これは、AI の仕組みを理解しやすくなる大きなヒントです。
安全と効率:
もし AI が「単純な繰り返し」で動いているなら、その仕組みを説明しやすく、安全性も検証しやすくなります。また、計算コストを下げたり、より効率的な AI を作ったりする道が開けます。
新しい視点:
この研究は、AI を「静的な機械」ではなく、「時間とともに変化する動的なシステム（流れる川や成長する植物）」として捉える新しい視点を提供しました。

📝 まとめ

この論文は、**「巨大な画像認識 AI は、実は『たった数人の職人』が『同じ作業』を何回も繰り返しているだけで動いている」**という驚きの事実を突き止めました。

まるで、100 段ある階段を登るのに、実は「3 段の階段」を 30 回繰り返して登っているのと同じです。この発見は、AI のブラックボックスを解き明かし、よりシンプルで安全な未来の AI 作りへの第一歩となるでしょう。

Each language version is independently generated for its own context, not a direct translation.

1. 背景と問題定義

背景: Vision Transformers (ViT) は、DINOv2 や CLIP などの基盤モデルにおいて標準的なアーキテクチャとなっています。しかし、その内部の計算プロセス（現象論）に対する機械的な理解（Mechanistic Understanding）は不足しています。
既存の課題: ViT の深さ（レイヤー数）は、残差接続により動的システム的な性質を持つことが示唆されていますが、それを「明確に特徴付けられた流れ（well-characterized flow）」として解釈する確立された枠組みはありません。
核心的な問い: 層間の表現の類似性（Representational Similarity）が高いことは、単に表現が似ているだけでなく、機能的な計算の再利用（Functional Reuse）、つまり同じ計算ブロックが再帰的に使われていることを意味するのでしょうか？

2. 主要な仮説：ブロック再帰的仮説 (Block-Recurrent Hypothesis: BRH)

著者らは、ブロック再帰的仮説 (BRH) を提唱しました。

定義: 学習済みの ViT は、 $L$ 層の構造を持っていますが、実際には $k \ll L$ （ $k$ は $L$ に比べて非常に小さい）個の異なるブロックを再帰的に適用することで、元の $L$ 層の計算を正確に再現できるという仮説です。
意味: 深さ（Depth）はパラメータの数を増やすだけでなく、限られた計算ブロックの反復（イテレーション）として機能しており、アルゴリズム的な単純性（Simplicity）が学習過程で出現していることを示唆します。

3. 手法とアプローチ

本研究は、以下の 3 つの段階で BRH を検証し、動的システムとしての解釈性を確立しました。

A. 実証的証拠とフェーズ構造の発見

層間類似性行列: 異なる ViT モデル（DINOv2, SigLip など）において、層と層の間のトークンのコサイン類似性を計算した行列を分析しました。
結果: どのモデルでも、連続する層のグループ（フェーズ）内で高い類似性が見られ、ブロック対角構造（Block-diagonal structure）が明確に現れました。
最大カットアルゴリズム: この構造を定量的に特定するため、層の類似性行列を最適に分割する「最大カット（Max-Cut）」アルゴリズムを開発し、再帰的なブロックの境界を自動検出しました。

B. 構成的検証：Raptor モデルの構築

仮説を実証するため、学習済みの ViT を近似する「再帰的サロゲートモデル」を構築しました。

Raptor (Recurrent Approximations to Phase-structured TransfORmers): 検出されたフェーズ（ブロック）ごとに、パラメータを共有（Weight-tied）された単一のブロックを、そのフェーズの長さだけ再帰的に適用するモデルです。
トレーニング戦略:
1. 教師あり強制 (Teacher Forcing): 初期段階では、真の教師ネットワークの中間活性化値を入力として使用し、安定して学習させます。
2. 自己回帰 (Autoregressive): 最終段階では、モデル自身の出力を次の入力として使用し、誤差が蓄積しても安定した閉ループ動的システムとして機能するように微調整します。
目的: 単なる出力の模倣ではなく、**すべての中間層の表現軌道（Internal Trajectory）**を正確に再現できるかを確認します。

C. 動的解釈性 (Dynamical Interpretability) の枠組み

BRH を利用して、ViT の深さを離散時間ダイナミクスとして分析しました。

方向収束: 特徴量のノルムは増加しますが、方向（単位球面上）はクラス依存の「角の吸引子（Angular Attractors）」へと収束します。
トークン固有のダイナミクス:
- cls トークン：後期に鋭い再方向付け（Reorientation）を行います。
- パッチトークン：後期に強い一貫性（Mean-field 効果に類似）を示し、平均方向へ急速に収束します。
低ランク収束: 後期の層では、層間更新が低ランク部分空間へ収束し、低次元の吸引子への収束と整合します。

4. 主要な結果

高効率な再現性:
- DINOv2 (ViT-Base) への適用: 2 つの再帰ブロック（ $k=2$ ）を持つ Raptor モデルは、DINOv2 の ImageNet-1k 線形プローブ精度の 96% を回復しました。3 ブロック（ $k=3$ ）では 98% まで向上しました。
- 計算コスト: 再帰ブロックを $n_j$ 回適用することは、 $n_j$ 個の独立したブロックを使用する場合と同等の計算コスト（実行時間）で済みます。つまり、パラメータ数を劇的に削減しつつ、同等の性能を維持できます。
フェーズ構造の機能的妥当性:
- 同じブロック内の層を交換しても精度は維持されますが、異なるブロック間での層の交換はモデルの崩壊を招きます。これは、ブロック構造が単なる表現の類似性ではなく、機能的な再利用性を反映していることを証明しています。
学習と確率的深さ (Stochastic Depth) の影響:
- 学習プロセスや確率的深さ（Stochastic Depth）の適用が、ブロック再帰的構造の出現を促進することが示されました。特に、確率的深さが高いほど、層間の類似性が高まり、Raptor による再構成精度が向上しました。
アルゴリズム的複雑さの低減:
- この発見は、ViT が Levin 複雑性（Levin Complexity）の観点から、名目上のアーキテクチャよりもはるかに単純であることを示唆しています（パラメータ数ではなく、計算の反復回数で記述されるコンパクトなプログラム）。

5. 意義と結論

ViT の理解の転換: ViT の深層構造は、単にパラメータを積み重ねたものではなく、学習を通じて「少数の計算ブロックを再帰的に再利用する」という低複雑性の規範的解（Normative Solution）に収束していることが示されました。
解釈可能性への道筋: この「ブロック再帰的」な性質は、複雑な大規模モデルを、動的システム理論（吸引子、安定性、低ランクダイナミクスなど）を用いて原理的に分析・解釈するための強力な枠組みを提供します。
将来への示唆: 安全性の確保やモデルの検証、そしてより効率的なアーキテクチャ設計において、この「再帰的単純性（Recurrence-induced Simplicity）」を積極的に利用する可能性が開かれました。

要約すれば、この論文は「ViT は複雑に見えるが、その内部では少数のブロックが再帰的に機能しており、これを『Raptor』というモデルで再現できる。これにより、ViT は動的システムとして解釈可能であり、本質的にアルゴリズム的に単純である」という画期的な発見を報告しています。