Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "Les Transformers de Vision ne sont pas aussi compliqués qu'ils en ont l'air"

Imaginez que vous avez un chef cuisinier génial (c'est le modèle d'IA, appelé Vision Transformer ou ViT) capable de regarder une photo et de dire exactement ce qu'elle représente (un chat, une voiture, un paysage).

Ce chef est très célèbre, mais il a un problème : il est énorme. Pour cuisiner un seul plat, il passe par 12 étapes différentes (12 couches de neurones), et à chaque étape, il utilise un nouvel outil unique et un nouveau chef d'équipe. C'est comme si pour faire une omelette, il fallait passer par 12 cuisines différentes, chacune avec son propre chef et ses propres ustensiles.

Les chercheurs se sont demandé : "Est-ce que ce chef est vraiment obligé d'avoir 12 équipes différentes ? Ou est-ce qu'il utilise en réalité les mêmes gestes et les mêmes outils, juste répétés plusieurs fois ?"

🔍 L'Hypothèse : "On répète la même chose"

Les chercheurs (de l'Institut Kempner à Harvard) ont découvert quelque chose de fascinant : Non, le chef n'a pas besoin de 12 équipes.

En réalité, le travail du chef se divise en 3 grandes phases (ou "blocs") :

Phase 1 : Il regarde les ingrédients (les pixels de l'image).
Phase 2 : Il mélange et comprend les relations entre les ingrédients.
Phase 3 : Il prépare le plat final pour le service.

Leur découverte, qu'ils appellent l'Hypothèse de la Récurance par Blocs, c'est que le chef utilise en fait le même petit groupe de 2 ou 3 assistants (des blocs de calcul) qu'il fait travailler en boucle. Il ne change pas d'outil à chaque étape, il réutilise les mêmes outils, encore et encore, jusqu'à ce que le plat soit prêt.

L'analogie du train : Imaginez un train qui traverse un pays. Au lieu d'avoir un moteur différent à chaque gare, le train a un seul moteur qui tourne encore et encore. Les chercheurs ont prouvé que les modèles d'IA fonctionnent exactement comme ce train : ils réutilisent le même moteur (le même bloc de calcul) plusieurs fois pour avancer.

🛠️ La Preuve : "Raptor", le Chef en Miniature

Pour prouver leur théorie, les chercheurs ont créé un nouveau modèle qu'ils ont appelé Raptor.

Au lieu d'essayer de copier le chef original avec 12 équipes, ils ont construit un mini-chef avec seulement 2 ou 3 assistants (blocs) qui tournent en boucle.

Le résultat est bluffant : Ce mini-chef, avec seulement 2 ou 3 blocs, arrive à cuisiner aussi bien que le géant original !
Il retrouve 96% à 98% de la précision du modèle original sur des tâches complexes (comme reconnaître des images sur Internet).
Et le plus important : il le fait aussi vite que l'original, car il ne fait pas 12 étapes différentes, mais réutilise les mêmes étapes.

C'est comme si vous pouviez remplacer une usine de 1000 machines par une seule machine intelligente qui tourne 1000 fois, et qui produit exactement le même résultat.

🌊 Ce qui se passe à l'intérieur : La Danse des Points

En regardant de plus près comment ces "assistants" travaillent, les chercheurs ont vu trois choses magiques :

La convergence directionnelle : Imaginez que chaque morceau de l'image (un "token") est une flèche qui pointe dans une direction. Au début, les flèches sont dans tous les sens. À mesure qu'elles traversent les blocs, elles commencent toutes à pointer vers la même destination (la bonne réponse), comme des oiseaux qui se regroupent avant de voler vers le sud.
Les rôles différents :
- Le token cls (le chef de file qui donne la réponse finale) fait des mouvements brusques et précis à la toute fin, comme un capitaine qui donne l'ordre final.
- Les tokens de l'image (les morceaux de pixels) se synchronisent et bougent tous ensemble, comme une foule qui marche au pas.
La simplicité cachée : À la fin du processus, toute la complexité de l'image se résume en quelques directions simples. C'est comme si le chaos initial se transformait en une mélodie claire et simple.

💡 Pourquoi est-ce important ?

Comprendre l'IA : Cela nous dit que l'intelligence artificielle n'est pas un mystère insondable. Elle trouve des raccourcis. Elle apprend à réutiliser des solutions simples pour résoudre des problèmes complexes.
Sécurité et Contrôle : Si nous savons que ces modèles sont en fait de simples boucles répétitives, nous pouvons mieux les vérifier, les auditer et nous assurer qu'ils ne font pas de bêtises. C'est comme savoir que le moteur d'une voiture est simple à inspecter, plutôt que d'avoir peur d'un mécanisme magique.
Efficacité : Cela ouvre la porte à créer des modèles plus petits, plus rapides et moins énergivores, car nous n'avons pas besoin de construire 12 étages différents, juste quelques étages bien conçus qui tournent en boucle.

En résumé

Ce papier nous dit : "Ne vous laissez pas impressionner par la taille des modèles d'IA." Derrière la complexité apparente, il y a une simplicité élégante. Les modèles d'IA apprennent à réutiliser les mêmes outils intelligents encore et encore, comme un artisan qui maîtrise parfaitement quelques gestes clés pour créer des chefs-d'œuvre.

Les chercheurs ont nommé leur découverte Raptor (pour Recurrent Approximations to Phase-structured TransfORmers), un petit dinosaure qui prouve qu'on peut être petit et puissant en réutilisant bien ses forces ! 🦖✨

Each language version is independently generated for its own context, not a direct translation.

Titre : Block-Recurrent Dynamics in ViTs

Auteurs : Mozes Jacobs, Thomas Fel, Richard Hakim, et al. (Kempner Institute, Harvard University)
Conférence : ICLR 2026

1. Problématique et Contexte

Les Vision Transformers (ViT) sont devenus l'architecture standard pour la vision par ordinateur, mais leur fonctionnement interne reste souvent une "boîte noire". Bien que les connexions résiduelles suggèrent une structure dynamique, il n'existe pas de cadre théorique établi pour interpréter la profondeur d'un Transformer comme un flux dynamique bien caractérisé.

Le problème central est de déterminer si la similarité représentative entre les couches d'un ViT (observée empiriquement) reflète une réutilisation fonctionnelle des calculs. Autrement dit, les différentes couches d'un réseau profond exécutent-elles réellement des opérations distinctes, ou le réseau réutilise-t-il un petit ensemble de blocs computationnels de manière itérative (récurrente) à travers la profondeur ?

2. Hypothèse de Travail : L'Hypothèse de Récurcence par Blocs (BRH)

Les auteurs proposent l'Hypothèse de Récurcence par Blocs (Block-Recurrent Hypothesis - BRH).

Définition : Un ViT entraîné de profondeur $L$ peut être réécrit avec une grande précision en utilisant seulement $k \ll L$ blocs distincts, appliqués de manière récurrente.
Formalisation : Au lieu de $L$ blocs avec des paramètres indépendants, le calcul peut être approximé par une séquence de $k$ blocs liés par des poids (weight-tied), où chaque bloc est appliqué $n_j$ fois de suite.
Objectif : Prouver que la structure de profondeur n'est pas une simple accumulation de transformations uniques, mais l'itération d'un petit nombre de primitives algorithmiques.

3. Méthodologie : Raptor et Dynamical Interpretability

Pour valider cette hypothèse, les auteurs ont développé une approche en deux volets :

A. Construction de Surrogats Récurrents (Raptor)

Les auteurs introduisent Raptor (Recurrent Approximations to Phase-structured TransfORmers), un modèle qui tente de distiller un ViT pré-entraîné en un modèle récurrent.

Découverte de Phases (Max-Cut) : Ils utilisent un algorithme de "Max-Cut" appliqué aux matrices de similarité représentative (cosinus) entre les couches pour identifier les frontières des "phases" (groupes de couches similaires).
Entraînement Hybride : Pour éviter les problèmes de stabilité classiques des réseaux récurrents (explosion/vanishing des gradients, accumulation d'erreurs), ils utilisent une stratégie d'entraînement en deux étapes :
- Stage 1 (Teacher Forcing) : Chaque bloc apprend à prédire la couche suivante en utilisant les activations réelles du modèle enseignant (ViT original) comme entrée.
- Stage 2 (Autoregressive) : Les blocs sont connectés et entraînés de bout en bout en utilisant leurs propres prédictions comme entrée pour l'étape suivante, assurant la cohérence du système en boucle fermée.
Objectif de Perte : Contrairement à la distillation classique qui ne vise que la sortie finale, Raptor minimise l'erreur sur toutes les activations intermédiaires (trajectoire complète), garantissant une équivalence computationnelle et non seulement une imitation de sortie.

B. Analyse par Systèmes Dynamiques

Une fois l'hypothèse BRH validée, les auteurs utilisent la structure récurrente pour analyser le ViT comme un système dynamique discret. Ils étudient l'évolution des représentations sur la sphère unité (en normalisant les normes des vecteurs) pour isoler la dynamique directionnelle.

4. Résultats Clés

Preuve Empirique de la BRH

Petits Modèles (CIFAR-100) : Les modèles Raptor avec seulement 2 blocs récurrents parviennent à atteindre des performances quasi-identiques aux ViT originaux, prouvant que la structure de similarité des couches correspond à une réutilisation fonctionnelle réelle.
Modèles Fondation (DINOv2) : Sur le modèle DINOv2 (ViT-Base) pré-entraîné sur ImageNet-1k :
- Un Raptor avec 2 blocs récupère 96% de la précision du ViT original.
- Un Raptor avec 3 blocs récupère 98% de la précision.
- Cela démontre que des modèles massifs peuvent être compressés en un programme récurrent compact sans perte significative de performance.

Facteurs d'Émergence

Stochastic Depth : L'augmentation du taux de dropout de couches (Stochastic Depth) pendant l'entraînement favorise l'émergence de cette structure récurrente, augmentant la similarité entre les couches et la fidélité de reconstruction par Raptor.
Spécificité des Blocs : Des expériences d'échange de couches montrent que remplacer une couche par une autre du même bloc préserve la précision, tandis que l'échange entre blocs différents fait effondrer le modèle, confirmant l'unicité fonctionnelle de chaque phase.

Découvertes en Dynamique (Interprétabilité)

L'analyse des trajectoires des tokens révèle trois phénomènes majeurs :

Convergence Directionnelle : Les tokens convergent vers des "bassins angulaires" dépendants de la classe. Les trajectoires sont auto-correctrices (petites perturbations sont ramenées vers la trajectoire originale).
Dynamiques Spécifiques aux Tokens :
- Le token CLS effectue des réorientations nettes et tardives (rôle d'agrégateur global).
- Les tokens Patch montrent une forte cohérence collective en fin de réseau, rappelant un effet de champ moyen (mean-field).
Effondrement de Rang (Low-Rank Collapse) : En profondeur, les mises à jour entre couches s'effondrent vers un sous-espace de très faible rang (environ 6 dimensions), indiquant que le réseau se concentre sur un petit nombre de directions collectives pour la décision finale.

5. Contributions et Signification

Validation de la Simplicité Algorithmique : Le papier fournit une preuve d'existence constructive que les ViT, malgré leur complexité apparente, opèrent selon une logique de réutilisation de blocs. Cela suggère une complexité de Levin faible (descriptibilité algorithmique courte pour un coût de calcul donné), remettant en question l'idée que la profondeur est nécessairement synonyme de complexité computationnelle accrue.
Nouveau Cadre d'Interprétabilité : En traitant la profondeur comme un système dynamique, les auteurs ouvrent la voie à l'analyse des ViTs via des outils de théorie des systèmes dynamiques (attracteurs, stabilité, modes propres), offrant une compréhension mécaniste plus profonde que les méthodes d'attribution de caractéristiques traditionnelles.
Implications pour l'Efficacité et la Sécurité : La découverte que les modèles peuvent être réécrits avec moins de paramètres (mais plus d'itérations) ouvre des perspectives pour la compression de modèles et la vérification formelle de leur comportement, car un programme récurrent est plus facile à analyser qu'un réseau profond avec des poids indépendants.

Conclusion

Ce travail établit que la profondeur des Vision Transformers n'est pas une simple accumulation de transformations, mais l'émergence d'un programme récurrent compact. En démontrant que des modèles fondationnels comme DINOv2 peuvent être approximés avec une grande précision par seulement quelques blocs récurrents, les auteurs proposent un changement de paradigme pour l'analyse et l'interprétation des modèles de vision, les reliant directement aux principes des systèmes dynamiques et de la complexité algorithmique.