Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Reus die eigenlijk maar één zin herhaalt

Stel je een Vision Transformer (een soort superintelligente computer die foto's begrijpt) voor als een gigantische fabriek met honderden verdiepingen. Elke verdieping is een "werkplek" waar de machine een stukje van de foto bekijkt en de informatie iets verbetert.

De onderzoekers van dit paper hebben iets verrassends ontdekt: Deze fabriek is veel simpeler dan hij eruit ziet.

Hoewel de machine eruitziet alsof hij 12 of 24 verschillende verdiepingen heeft, waar elke verdieping zijn eigen unieke regels volgt, blijkt dat de machine in werkelijkheid slechts een paar verschillende werkplekken gebruikt die hij keer op keer herhaalt.

Het is alsof je een boek leest dat 1000 pagina's lang is, maar eigenlijk bestaat uit slechts 3 verschillende zinnen die eindeloos herhaald worden, met kleine aanpassingen. De onderzoekers noemen dit de Block-Recurrent Hypothesis.

De Drie Grootste Ontdekkingen

1. De "Blokken" in de Diepte (De Metafoor van de Reiziger)

Stel je voor dat je een lange reis maakt door een landschap.

De oude gedachte: Je denkt dat je elke dag een compleet nieuwe route neemt, met nieuwe regels en nieuwe landschappen.
De nieuwe ontdekking: De onderzoekers keken naar de "reisroute" van de data door de machine. Ze zagen dat de machine in blokken reist.
- In het eerste blok (bijvoorbeeld verdieping 1 tot 7) doet de machine precies hetzelfde soort werk.
- Dan schakelt hij over naar een tweede blok (verdieping 8 tot 12) waar hij een ander, maar ook herhaaldelijk, soort werk doet.

Ze hebben een slim algoritme (een soort "GPS") ontwikkeld om deze blokken te vinden. Ze zagen dat als je de machine probeert na te bouwen met slechts 2 of 3 blokken die herhaald worden, hij bijna net zo goed werkt als de oorspronkelijke machine met al zijn 12 verdiepingen.

De les: De machine is niet een lange lijn van unieke stappen, maar een herhalend ritme.

2. De "Raptor" (De Slimme Kloon)

Om te bewijzen dat dit niet alleen maar een toevalstreffer is, hebben de onderzoekers een nieuwe, kleinere machine gebouwd die ze Raptor noemen.

Het experiment: Ze namen een zeer slimme, grote machine (DINOv2) en probeerden deze na te bouwen met een heel klein model dat slechts 2 of 3 blokken gebruikt.
Het resultaat: Het kleine Raptor-model deed het bijna even goed als de grote machine! Het kon 96% van de prestaties halen.
Waarom is dit belangrijk? Dit bewijst dat de grote machine zijn kracht niet haalt uit het hebben van veel verschillende onderdelen, maar uit het slimme hergebruik van een paar krachtige onderdelen. Het is alsof je een hele symfonie kunt spelen met slechts drie instrumenten, als je ze maar op het juiste moment en op de juiste manier gebruikt.

3. De Dynamiek (De Dans van de Deeltjes)

De onderzoekers keken ook naar hoe de informatie beweegt door de machine. Ze gebruikten wiskunde om te kijken hoe de "gedachten" van de machine veranderen. Ze ontdekten drie coole dingen:

Aangetrokken door een magneet: De informatie in de machine beweegt niet willekeurig. Het stroomt allemaal naar specifieke "valleien" of "magnetische punten" die horen bij het object dat de machine ziet (bijvoorbeeld een hond of een auto). Als je de machine een klein beetje stuitert, komt hij vanzelf weer terug naar de juiste weg. Het is alsof een bal die in een kom rolt; hij rolt altijd terug naar de bodem.
Verschillende dansers: Er zijn verschillende soorten "deeltjes" in de machine (token's).
- De CLS-token (de hoofd-token die het eindoordeel velt) doet een plotselinge, scherpe draai op het einde, alsof hij plotseling zegt: "Ah, nu snap ik het!"
- De plaatje-token's (de stukjes van de foto) bewegen heel rustig en in harmonie met elkaar, alsof ze een groepje zijn dat samen naar een doel toe stapt.
Samenkomen in een lijn: Op het einde van de reis (in de laatste verdiepingen) worden alle bewegingen heel simpel. Ze vallen samen in een paar hoofdrichtingen. De chaos wordt geordend tot een simpele, lage-dimensionale lijn.

Waarom is dit geweldig nieuws?

Betrouwbaarheid: Als we begrijpen dat deze complexe AI's eigenlijk simpele, herhalende patronen volgen, kunnen we ze beter begrijpen, controleren en veilig maken. Het is makkelijker om een simpel ritme te analyseren dan een chaotische storm.
Efficiëntie: Het suggereert dat we in de toekomst veel kleinere en snellere AI's kunnen bouwen die net zo slim zijn als de huidige reuzen, omdat we weten dat we niet alles hoeven te bouwen, maar alleen de juiste blokken hoeven te herhalen.
Wetenschap: Het laat zien dat de natuur (en de wiskunde) van intelligentie vaak neigt naar eenvoud. Complexe systemen vinden vaak een simpele, elegante oplossing.

Kortom: De onderzoekers hebben laten zien dat Vision Transformers geen ondoordringbare zwarte dozen zijn met duizenden unieke onderdelen. Ze zijn meer als een goed georganiseerd orkest dat een paar prachtige melodieën herhaalt en combineert om een meesterwerk te creëren. En nu weten we eindelijk welke melodieën dat zijn.

Each language version is independently generated for its own context, not a direct translation.

Titel: Block-Recurrent Dynamics in ViTs

Auteurs: Mozes Jacobs, Thomas Fel, Richard Hakim, et al. (Kempner Institute, Harvard University)
Publicatie: ICLR 2026

1. Het Probleem

Vision Transformers (ViTs) zijn de standaardarchitectuur geworden voor visuele taken, maar hun interne werking blijft grotendeels een "black box". Hoewel er aanwijzingen zijn dat de diepte van een Transformer een dynamische structuur heeft (bijvoorbeeld door residuele connecties), ontbreekt er een vaststaand kader om deze diepte te interpreteren als een goed gekarakteriseerde stroom (flow).

De kernvraag: Kan de berekening van een ViT met $L$ lagen worden herschreven als een herhaald gebruik van slechts $k \ll L$ unieke blokken?
De uitdaging: Bestaande methoden tonen vaak representational similarity (gelijkheid in uitkomsten) tussen lagen, maar dit garandeert niet functionele gelijkheid. Lagen kunnen vergelijkbare representaties produceren via volledig verschillende computationele paden. Er is een mechanisme nodig om te bewijzen dat lagen daadwerkelijk dezelfde computationele operaties hergebruiken.

2. Methodologie

De auteurs introduceren de Block-Recurrent Hypothesis (BRH) en valideren deze via een constructieve benadering genaamd Raptor (Recurrent Approximations to Phase-structured TransfORmers).

A. De Block-Recurrent Hypothesis (BRH)

De BRH stelt dat een getrainde ViT een dieptestructuur heeft die bestaat uit een paar opeenvolgende "fases". De berekening van de originele $L$ lagen kan nauwkeurig worden herschreven door slechts $k$ unieke blokken ( $B_1, ..., B_k$ ) herhaaldelijk toe te passen, waarbij de parameters van blokken binnen dezelfde fase zijn gekoppeld (weight-tied).

Formele definitie: Voor elke laag $\ell$ bestaat er een benadering met $k$ blokken die de interne trajecten reproduceert met een foutmarge $\varepsilon$ , zonder de totale rekentijd te verhogen.

B. Constructieve Validatie: Raptor

Om de BRH te testen, bouwen de auteurs recurrente surrogate-modellen (Raptor) die de interne activaties van een getrainde ViT (de "teacher") moeten nabootsen.

Architectuur: Raptor gebruikt $k$ parameter-gekoppelde blokken.
Fasedetectie: Een Max-Cut algoritme wordt gebruikt op de matrix van cosine-achtigheden tussen lagen om de grenzen van de fasen te bepalen. Dit maximaliseert de gelijkenis binnen blokken en minimaliseert deze tussen blokken.
Trainingsstrategie (Hybride):
1. Stage 1 (Teacher Forcing): Elke blokken wordt onafhankelijk getraind om de volgende laag te voorspellen op basis van de ware activaties van de teacher. Dit zorgt voor stabiliteit.
2. Stage 2 (Autoregressief): Alle blokken worden gekoppeld en het model wordt getraind om de volledige trajecten te voorspellen op basis van zijn eigen vorige voorspellingen. Dit zorgt ervoor dat het model zijn eigen fouten kan corrigeren en stabiel is tijdens inferentie.
Doel: Het model moet niet alleen de einduitkomst matchen, maar de volledige interne representatietrajecten van alle lagen.

C. Dynamical Interpretability

Naast het bouwen van Raptor, gebruiken de auteurs de recurrente structuur om ViTs te analyseren als discrete-tijd dynamische systemen. Ze bestuderen de evolutie van token-richtingen op de eenheidssfeer (na normalisatie van de normen).

3. Belangrijkste Resultaten

A. Empirisch Bewijs voor BRH

Kleine modellen: Op CIFAR-100 tonen Raptor-modellen met slechts 2 of 3 blokken prestaties die zeer dicht bij de oorspronkelijke ViT liggen, wat aantoont dat de representatieve blokkenstructuur correleert met functionele herbruikbaarheid.
Foundation Models (DINOv2): De meest overtuigende bevinding is dat een Raptor-model met slechts 2 blokken 96% van de ImageNet-1k linear-probe nauwkeurigheid van DINOv2 (ViT-Base) herstelt. Met 3 blokken stijgt dit naar 98%. Dit gebeurt met een vergelijkbare rekentijd als het origineel.
Unieke Identiteit: Experimenten tonen aan dat het vervangen van een laag door een laag uit een andere blokk (inter-block swap) het model doet instorten, terwijl vervanging binnen dezelfde blokk (intra-block swap) de nauwkeurigheid behoudt. Dit bewijst dat lagen binnen een fase functioneel uitwisselbaar zijn.

B. Invloed van Training en Stochastic Depth

Stochastic Depth (SD): De auteurs vinden een sterke positieve correlatie tussen het gebruik van stochastic depth tijdens training en de mate waarin een ViT kan worden gecomprimeerd tot recurrente blokken. Hogere SD-rates leiden tot meer gelijke lagen binnen blokken en betere reconstructie door Raptor.
Overfitting: Als een ViT overfit, breekt de block-recurrente structuur af, wat suggereert dat deze structuur een eigenschap is van goed geregulariseerde, generaliserende netwerken.

C. Dynamische Analyse (Dynamical Interpretability)

De analyse van de recurrente stroom onthult drie belangrijke dynamische fenomenen:

Directionele Convergentie: Tokens convergeren richting "hoekige attractoren" (angular basins) afhankelijk van de klasse. Kleine verstoringen worden gecorrigeerd (zelfcorrectie), wat wijst op lokale stabiliteit.
Token-specifieke Dynamiek:
- De cls-token voert scherpe heroriëntaties uit in de late fasen (global aggregator).
- Patch-tokens vertonen sterke coherentie en convergeren snel naar een gemiddelde richting (vergelijkbaar met een mean-field effect).
Low-Rank Collapse: In de late lagen collapseert de update-matrix naar een laag-dimensionale deelruimte. De dynamiek wordt gedomineerd door een paar collectieve richtingen, wat suggereert dat de informatie in de late lagen wordt samengevoegd tot een compacte representatie.

4. Bijdragen en Significatie

Constructief Bewijs: Het artikel levert het eerste empirische en constructieve bewijs dat grote Vision Transformers functioneel kunnen worden herschreven als recurrente systemen met veel minder unieke parameters.
Levin Complexiteit: De auteurs argumenteren dat ViTs een lage Levin-complexiteit hebben. Hoewel ze veel parameters hebben, is de beschrijvingslengte van het algoritme kort omdat dezelfde blokken herhaald worden. Dit suggereert dat succesvolle modellen een "simplicity bias" vertonen.
Nieuw Kader voor Interpretatie: Door ViTs te behandelen als dynamische systemen, biedt de paper een nieuw perspectief voor mechanistische interpretatie. Het stelt dat de complexiteit van ViTs niet chaotisch is, maar volgt een gestructureerde, laag-dimensionale stroom.
Praktische Implicaties: Hoewel het doel niet primair compressie was, toont het aan dat recurrente architecturen potentieel hebben om foundation models te vervangen of te distilleren zonder significante prestatieverlies, wat efficiëntere inferentie mogelijk maakt.

Conclusie:
Het artikel concludeert dat er een "recurrente eenvoud" (recurrence-induced simplicity) bestaat in de diepte van Vision Transformers. De schijnbaar complexe diepe netwerken volgen in feite een compact programma van herhaalde blokken, wat een fundamenteel inzicht biedt in hoe deze modellen visuele intelligentie leren en hoe ze mechanistisch kunnen worden begrepen.