Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Vision Transformer (ViT) ist wie ein riesiges, hochmodernes Bürogebäude mit vielen Etagen (Schichten). In diesem Gebäude arbeiten Tausende von Mitarbeitern (die neuronalen Netzwerke), die eine Aufgabe lösen, zum Beispiel ein Bild erkennen.

Bisher dachten wir, jede Etage hat ihre eigene, einzigartige Spezialität. Die erste Etage macht etwas ganz anderes als die zweite, die dritte etwas anderes als die vierte, und so weiter bis zur obersten Etage. Das Gebäude wirkt also sehr komplex und verschwendet viele Ressourcen, weil jede Etage ihre eigene "Maschinerie" hat.

Die große Entdeckung dieses Papers:
Die Forscher haben herausgefunden, dass das gar nicht stimmt! Das Gebäude ist eigentlich viel schlauer und effizienter aufgebaut, als es aussieht.

Hier ist die einfache Erklärung der wichtigsten Punkte, mit ein paar kreativen Vergleichen:

1. Die "Block-Recurrent Hypothesis" (Die Wiederholungs-Regel)

Stell dir vor, du gehst durch dieses Bürogebäude. Du bemerkst, dass die Mitarbeiter auf den Etagen 1 bis 7 fast identisch arbeiten. Sie benutzen dieselben Werkzeuge, dieselben Regeln und lösen das Problem auf dieselbe Weise. Dann, auf den Etagen 8 bis 12, ändern sie ihre Arbeitsweise leicht, aber auch hier arbeiten sie wieder als Team mit denselben Regeln.

Die Forscher nennen dies die Block-Recurrent Hypothesis. Sie sagen: "Hey, wir müssen nicht 12 verschiedene Teams haben. Wir können das ganze Gebäude mit nur 2 oder 3 verschiedenen Teams bauen, die sich immer wieder wiederholen!"

Die Analogie: Stell dir vor, du hast einen Song, der 100 Sekunden lang ist. Du denkst, er besteht aus 100 verschiedenen Noten. Aber tatsächlich besteht er nur aus 3 verschiedenen Tönen, die immer wieder in einer bestimmten Reihenfolge abgespielt werden. Das ist viel einfacher zu merken und zu verstehen.

2. Der "Raptor" (Der Nachbau)

Um zu beweisen, dass diese Idee funktioniert, haben die Forscher ein neues, kleines Modell namens Raptor gebaut.

Das Experiment: Sie nahmen ein riesiges, trainiertes KI-Modell (DINOv2), das sehr gut Bilder erkennt.
Der Trick: Sie bauten einen "Nachbau", der nur aus 2 oder 3 wiederholten Blöcken besteht.
Das Ergebnis: Dieser kleine Nachbau konnte fast genauso gut arbeiten wie das riesige Original! Er erreichte 96 % der Leistung des Originals, obwohl er viel weniger "Bausteine" hatte.

Das ist, als würdest du einen riesigen, komplizierten Kochrezept-Nachbau erstellen, der nur aus drei Grundzutaten besteht, die immer wieder gemischt werden, und er schmeckt fast genauso gut wie das Original mit 50 Zutaten.

3. Warum passiert das? (Das Chaos-Prinzip)

Warum lernen diese KI-Modelle, sich so zu wiederholen?
Die Forscher haben herausgefunden, dass eine spezielle Trainingsmethode namens "Stochastic Depth" (zufälliges Weglassen von Etagen während des Trainings) dabei hilft.

Die Analogie: Stell dir vor, du lernst Klavierspielen. Wenn du immer nur die gleichen 10 Minuten am Stück übst, wirst du steif. Aber wenn du zufällig Pausen machst oder Teile des Stücks weglässt, musst du flexibler werden und die Grundmuster wirklich verstehen. Genau das passiert im Training: Das KI-Modell wird gezwungen, effiziente, wiederholbare Muster zu finden, statt sich auf jede einzelne Etage zu verlassen.

4. Was passiert im Inneren? (Die Reise der Daten)

Die Forscher haben sich angesehen, wie die Daten durch das Gebäude reisen. Sie haben drei spannende Dinge entdeckt:

Der Kompass (Richtung): Die Daten (die "Tokens") wandern durch das Gebäude. Am Anfang sind sie chaotisch, aber je weiter sie nach oben kommen, desto mehr richten sie sich nach einer bestimmten Richtung aus. Es ist, als würden alle Mitarbeiter am Ende des Tages in dieselbe Richtung schauen, um das Ergebnis zu präsentieren.
Der Chef vs. die Mitarbeiter: Es gibt einen speziellen Token (den "CLS"-Token), der wie ein Chef ist. Er macht am Ende eine scharfe Wendung, um die Entscheidung zu treffen. Die anderen Tokens (die "Patch"-Tokens, die das Bild sehen) bewegen sich eher wie ein Schwarm Vögel, der sich synchronisiert und gemeinsam in eine Richtung fliegt.
Der Zusammenbruch: Ganz am Ende wird die Bewegung sehr einfach. Die Daten bewegen sich nicht mehr in alle möglichen Richtungen, sondern nur noch in wenigen, wichtigen Bahnen. Das ist wie ein Fluss, der am Ende in ein kleines, tiefes Becken mündet.

Warum ist das wichtig?

Bisher waren KI-Modelle wie "Black Boxes" – wir wussten nicht genau, wie sie funktionieren. Dieses Paper zeigt uns, dass diese komplexen Modelle eigentlich einfache, wiederkehrende Muster nutzen.

Für die Sicherheit: Wenn wir wissen, dass das Modell nur ein paar einfache Regeln wiederholt, können wir es besser überprüfen und verstehen, ob es sich "dumm" verhält.
Für die Zukunft: Wir könnten in Zukunft viel kleinere und schnellere KI-Modelle bauen, die genauso gut funktionieren, weil wir wissen, dass wir keine riesigen, einzigartigen Etagen brauchen, sondern nur ein paar gute, wiederholbare Blöcke.

Zusammenfassend:
Die Forscher haben bewiesen, dass Vision Transformer nicht so kompliziert sind, wie sie aussehen. Sie sind wie ein gut geöltes Uhrwerk, das mit wenigen, sich wiederholenden Zahnrädern (Blöcken) funktioniert, anstatt aus tausenden einzigartigen Teilen zu bestehen. Das macht sie nicht nur effizienter, sondern auch verständlicher für uns Menschen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Block-Recurrent Dynamics in ViTs (Block-rekurrente Dynamiken in Vision Transformern)

Autoren: Mozes Jacobs, Thomas Fel, Richard Hakim, Alessandra Brondetta, Demba Ba, T. Andy Keller (Kempner Institute, Harvard University et al.)
Veröffentlicht: ICLR 2026

1. Problemstellung

Vision Transformer (ViT) sind zum Standard-Backbone in der Computer-Vision geworden. Trotz ihrer weitverbreiteten Nutzung fehlt es an einem mechanistischen Verständnis ihrer inneren Funktionsweise.

Herausforderung: Obwohl die Architektur (z. B. Residualverbindungen) Hinweise auf eine dynamische Struktur gibt, existiert kein etabliertes Framework, das die Tiefe (Depth) eines Transformers als einen gut charakterisierten Fluss interpretiert.
Lücke: Bisherige Analysen der Repräsentationsähnlichkeit zwischen Schichten zeigen zwar blockartige Strukturen, aber Ähnlichkeit in der Darstellung garantiert nicht funktionale Gleichwertigkeit. Es ist unklar, ob diese Phasen echte, wiederverwendbare Berechnungen darstellen oder nur zufällige Korrelationen sind.
Ziel: Die Autoren wollen herausfinden, ob trainierte ViTs eine Block-Rekurrenz-Hypothese (BRH) erfüllen: Kann die Berechnung von $L$ Schichten durch die rekursive Anwendung von nur $k \ll L$ verschiedenen Blöcken genau nachgebildet werden?

2. Methodik

Die Arbeit verfolgt einen dreistufigen Ansatz: Empirische Beobachtung, konstruktive Verifikation und dynamische Analyse.

A. Die Block-Rekurrenz-Hypothese (BRH)

Die Hypothese besagt, dass ein trainierter ViT mit $L$ Schichten äquivalent zu einer Sequenz von $k$ parametrisch gebundenen (weight-tied) Blöcken $B_1, \dots, B_k$ ist, die rekursiv angewendet werden.

Formale Definition: Die Ausgabe der originalen Schicht $\ell$ kann durch die Komposition von $n_j$ Wiederholungen der Blöcke $B_j$ approximiert werden, wobei $\sum n_j = \ell$ und $k \ll L$ .
Bedingung: Die Approximation muss nicht nur das Endergebnis, sondern den gesamten internen Repräsentationspfad (alle Zwischenschichten) mit hoher Genauigkeit wiedergeben.

B. Konstruktive Verifikation: Raptor

Um die Hypothese zu testen, entwickelten die Autoren Raptor (Recurrent Approximations to Phase-structured TransfORmers).

Phasenerkennung: Ein Max-Cut-Algorithmus analysiert die Cosinus-Ähnlichkeitsmatrix zwischen den Schichten, um die Grenzen der „Phasen" (Blöcke) zu identifizieren.
Architektur: Raptor besteht aus $k$ parametrisch gebundenen Blöcken. Jeder Block ist für einen spezifischen Abschnitt der ursprünglichen Schichten verantwortlich.
Trainingsstrategie (Hybrid-Ansatz):
1. Teacher Forcing: In der ersten Phase wird jeder Block unabhängig trainiert, um die direkte nächste Schicht des Lehrers (Teacher Network) vorherzusagen, basierend auf den korrekten Eingaben des Lehrers. Dies stabilisiert das Training.
2. Autoregressives Training: In der zweiten Phase werden alle Blöcke verbunden. Das Modell muss nun seine eigenen vorhergesagten Ausgaben als Eingabe für die nächste Schicht verwenden. Dies erzwingt eine konsistente, geschlossene Schleife (closed-loop) und verhindert, dass Fehler akkumulieren.
Ziel: Minimierung des Fehlers zwischen den internen Aktivierungen des Raptor-Modells und denen des originalen ViT über alle Schichten hinweg.

C. Dynamische Interpretierbarkeit

Basierend auf der BRH betrachten die Autoren die Tiefe des ViT als ein diskretes dynamisches System. Sie analysieren die Entwicklung der Token-Repräsentationen auf der Einheitskugel (Normalisierung der Vektoren), um Konvergenzverhalten, Stabilität und Dimensionsreduktion zu untersuchen.

3. Schlüsselbeiträge und Ergebnisse

A. Empirische Evidenz für Block-Rekurrenz

Phasenstruktur: Layer-zu-Layer-Ähnlichkeitsmatrizen zeigen konsistent eine blockdiagonale Struktur über verschiedene Modelle hinweg (DINOv2, SigLIP, ViT-Small/Large).
Funktionale Wiederverwendbarkeit: Raptor-Modelle, die mit nur 2 Blöcken trainiert wurden, erreichen 96 % der Genauigkeit eines DINOv2 ViT-Base auf ImageNet-1k (Linear Probe). Mit 3 Blöcken steigt dies auf 98 %.
Validierung: Das Modell rekonstruiert nicht nur die Ausgabe, sondern den gesamten internen Pfad. Ein Austausch von Schichten innerhalb eines Blocks (Intra-Block) erhält die Genauigkeit, während ein Austausch zwischen Blöcken (Inter-Block) zum Kollaps führt. Dies beweist, dass die Blöcke funktionale Einheiten sind.

B. Einfluss von Training und Stochastischer Tiefe

Experimente mit kleinen ViTs zeigen, dass Stochastische Tiefe (Stochastic Depth) die Block-Rekurrenz fördert. Höhere Dropout-Raten führen zu stärkerer Ähnlichkeit zwischen Schichten und einer besseren Rekonstruktionsfähigkeit durch Raptor.
Untrainierte Netze lassen sich leichter rekonstruieren als überangepasste (overfitted) Netze, was darauf hindeutet, dass die Rekurrenz eine Eigenschaft gut regularisierter, generalisierender Modelle ist.

C. Dynamische Interpretierbarkeit (Dynamical Interpretability)

Die Analyse der rekurrenten Struktur offenbart drei fundamentale Eigenschaften:

Richtungskonvergenz: Token konvergieren in „winkelabhängige Becken" (angular basins), die klassenspezifisch sind. Kleine Störungen werden korrigiert (selbstkorrigierende Trajektorien).
Token-spezifische Dynamik:
- CLS-Token: Führt scharfe Neuorientierungen in den späten Phasen durch (globale Aggregation).
- Patch-Token: Zeigen starke Kohärenz und konvergieren schnell in eine mittlere Richtung (ähnlich einem Mean-Field-Effekt).
Zusammenbruch des Ranges (Rank Collapse): In den späteren Schichten kollabieren die Updates auf einen niedrigdimensionalen Unterraum (niedriger Rang). Dies deutet auf die Konvergenz zu niedrigdimensionalen Attraktoren hin, was die Komplexität der Dynamik in der Tiefe reduziert.

D. Algorithmische Komplexität

Die Autoren argumentieren, dass die BRH impliziert, dass ViTs eine niedrige Levin-Komplexität aufweisen. Obwohl die nominale Architektur tief ist, ist die algorithmische Beschreibung kurz (wenige Blöcke), und die Rechenzeit bleibt gleich (da die Blöcke wiederholt angewendet werden). Dies widerlegt die Annahme, dass Tiefe notwendigerweise hohe algorithmische Komplexität bedeutet.

4. Bedeutung und Fazit

Paradigmenwechsel: Die Arbeit schlägt vor, ViTs nicht als statische, tiefe Netzwerke, sondern als rekursive dynamische Systeme zu verstehen.
Interpretierbarkeit: Durch die Reduktion auf wenige rekursive Blöcke wird die Analyse der inneren Mechanismen von ViTs prinzipiell machbarer. Es gibt eine „einfache normative Lösung" hinter der scheinbaren Komplexität.
Effizienz vs. Verständnis: Das Hauptziel ist nicht primär die Kompression für effizientere Inferenz, sondern der Nachweis, dass die Modelle funktionell rekursiv sind. Dies bietet neue Wege für die Sicherheitsüberprüfung und das Verständnis von KI-Systemen.
Zukunftsausblick: Die Ergebnisse legen nahe, dass zukünftige Architekturen oder Trainingsmethoden explizit diese rekursive Struktur nutzen könnten, um effizientere und besser interpretierbare Modelle zu bauen.

Zusammenfassend beweist das Paper, dass die Tiefe von Vision Transformern eine Block-Rekurrenz darstellt, die durch wenige, wiederverwendbare Berechnungseinheiten charakterisiert ist, und liefert ein neues Framework zur dynamischen Analyse dieser Systeme.