Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "Redécouvrir les modèles qui 'lisent' l'image mot par mot"

Imaginez que vous essayez d'identifier un animal sur une photo.

L'approche classique (Discriminative) : C'est comme un détective qui regarde la photo et dit : "Tiens, il a des oreilles pointues, donc c'est un chat". Il cherche des indices spécifiques.
L'approche générative (Générative) : C'est comme un artiste qui dit : "Si c'était un chat, à quoi ressemblerait la photo ?" Il essaie de reconstruire l'image dans sa tête pour voir si elle colle avec l'idée de "chat".

Ce papier s'intéresse à cette deuxième approche, mais avec un modèle spécifique appelé AR (Autoregressif).

🧩 Le Problème : La lecture trop rigide

Pendant longtemps, les modèles IA qui fonctionnent comme des "lecteurs de livres" (ils lisent l'image pixel par pixel, comme on lit une phrase de gauche à droite) avaient un gros défaut : ils étaient trop rigides.

Imaginez un livre où vous êtes obligé de lire les mots dans un ordre strict, de gauche à droite, ligne par ligne.

Si vous lisez d'abord le mot "chien", puis "rouge", vous imaginez un chien rouge.
Mais si vous lisez "rouge" puis "chien", vous imaginez peut-être quelque chose de différent.

Dans le monde de l'IA, les modèles AR traditionnels lisaient toujours l'image dans le même ordre (comme un scanner de document : de haut en bas, de gauche à droite). Les chercheurs ont réalisé que cela limitait la compréhension de l'image. C'est comme si on essayait de comprendre un tableau en ne regardant que la partie supérieure, puis la partie inférieure, sans jamais changer d'angle.

L'analogie du puzzle :
Si vous essayez de deviner l'image d'un puzzle en regardant les pièces dans un ordre fixe, vous risquez de vous tromper si les premières pièces sont ambiguës. Mais si vous pouvez regarder les pièces dans n'importe quel ordre, vous obtenez une vue d'ensemble beaucoup plus claire.

💡 La Solution : La "Lecture à l'aveugle" (Any-Order)

Les auteurs de ce papier ont eu une idée brillante : Et si on laissait le modèle lire l'image dans des ordres totalement différents à chaque fois ?

Ils utilisent un modèle appelé RandAR qui peut lire les "mots" de l'image (les tokens) dans n'importe quel ordre.

Ils demandent au modèle de deviner la classe de l'image en lisant les pièces du puzzle dans un ordre aléatoire.
Ils le font 20 fois, avec 20 ordres différents.
Ils font la moyenne de ces 20 avis.

La métaphore du jury :
Imaginez un procès où vous avez un seul juge (l'ancien modèle rigide). Il peut se tromper s'il a un mauvais jour ou s'il a mal vu un détail.
Mais si vous assemblez un jury de 20 personnes (le nouveau modèle), chacune regardant les preuves dans un ordre différent, et que vous prenez la décision majoritaire, le verdict sera beaucoup plus juste et robuste. C'est ce qu'ils appellent "marginaliser l'ordre".

🏆 Les Résultats : Plus rapide et plus fort

Les chercheurs ont comparé leur nouvelle méthode avec les champions actuels du domaine (les modèles de Diffusion, comme ceux qui font fonctionner DALL-E ou Midjourney).

Voici ce qu'ils ont découvert :

Précision supérieure : Leur méthode (le jury de 20 lectures) bat les modèles de diffusion classiques pour classer les images. Elle est même très compétitive face aux meilleurs modèles d'IA "discriminatifs" (ceux qui sont juste entraînés à reconnaître des images, sans essayer de les créer).
Vitesse fulgurante : C'est là que ça devient fou.
- Les modèles de diffusion sont lents. Pour classer une image, ils doivent faire tourner le modèle 200 fois (comme si le jury devait délibérer 200 fois).
- Le modèle AR de l'équipe, même avec ses 20 lectures, est 25 fois plus rapide.
- Analogie : C'est comme si le jury de diffusion prenait 25 minutes pour rendre un verdict, tandis que le jury AR le fait en 1 minute, tout en étant plus précis.

🌍 Pourquoi c'est important ?

Ce papier montre que les modèles qui "génèrent" (créent) des images peuvent aussi être d'excellents "classificateurs" (reconnaître des images), à condition de ne pas être trop rigides dans leur façon de les regarder.

Robustesse : Ils sont moins facilement trompés par des images bizarres ou bruitées (comme une photo floue ou avec du bruit).
Efficacité : Ils offrent une alternative très rapide aux modèles de diffusion, ce qui est crucial pour les applications réelles (comme sur un téléphone ou dans une voiture autonome).

En résumé

Les auteurs ont dit : "Arrêtons de lire les images comme un robot ennuyeux qui suit toujours le même chemin. Donnons-leur la liberté de regarder l'image sous tous les angles, et combinons ces points de vue."

Résultat ? Une IA qui voit mieux, comprend mieux, et décide beaucoup plus vite que ses concurrents. C'est une victoire pour l'efficacité et la précision de l'intelligence artificielle visuelle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles génératifs (MG), en particulier les modèles de diffusion (DM), ont récemment démontré une capacité supérieure à approximer des distributions de données visuelles complexes. Cette avancée a suscité l'intérêt pour leur utilisation directe en tant que classificateurs génératifs (GC). Contrairement aux classificateurs discriminatifs traditionnels qui apprennent une frontière de décision directe, les GC estiment la vraisemblance conditionnelle de classe $p(x|y)$ et utilisent la règle de Bayes pour obtenir la probabilité postérieure $p(y|x)$ .

Bien que les modèles de diffusion aient surpassé les modèles autoregressifs (AR) dans les tâches de génération d'images et de classification générative récente, les auteurs identifient une limitation fondamentale dans les approches AR existantes :

Biais inductif rigide : La plupart des modèles AR visuels génèrent des images selon un ordre de jetons (tokens) fixe, généralement un balayage raster (de gauche à droite, de haut en bas).
Conséquence : Cette contrainte impose un biais inductif restrictif pour la compréhension des images. Les auteurs observent que les prédictions basées sur un seul ordre de jetons dépendent trop de signaux discriminatifs partiels, tandis que la moyenne sur plusieurs ordres pourrait fournir un signal plus complet et robuste.

2. Méthodologie

L'approche proposée repose sur l'exploitation des modèles AR "any-order" (tous ordres), spécifiquement RandAR, pour estimer des prédictions marginalisées par rapport à l'ordre des jetons.

A. Marginalisation de l'ordre (Order-Marginalization)

Au lieu de s'en tenir à un ordre fixe, la méthode propose d'estimer la vraisemblance inconditionnelle de l'ordre $p(x|c)$ en marginalisant sur tous les ordres possibles $\pi$ :
$p(x|c) = \mathbb{E}_{\pi} [p(x|\pi, c)]$

Pour rendre ce calcul réalisable, les auteurs utilisent l'inégalité de Jensen pour approximer la borne inférieure du log-vraisemblance :
$\log p(x|c) \geq \mathbb{E}_{\pi} [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^{K} \log p(x|\pi_k, c)$
où $K$ est le nombre d'ordres de jetons aléatoires échantillonnés.

B. Architecture et Procédure

Tokenisation : L'image est convertie en une séquence de jetons discrets via un VQ-VAE (LlamaGen).
Permutation : Pour chaque image, $K$ permutations aléatoires des indices de jetons sont générées. Des jetons de position sont ajoutés pour guider le modèle RandAR.
Évaluation : Le modèle RandAR calcule le log-vraisemblance conditionnel pour chaque classe $c$ et chaque permutation $\pi_k$ .
Agrégation : Les log-vraisemblances sont moyennés sur les $K$ permutations pour obtenir une estimation robuste pour chaque classe.
Classification : La classe prédite est celle maximisant cette vraisemblance agrégée.

C. Efficacité Computationnelle

Contrairement aux classificateurs de diffusion qui nécessitent souvent 100 à 250 passes forward (timesteps) pour estimer une seule vraisemblance, les modèles AR peuvent évaluer le log-vraisemblance conditionnel en une seule passe forward par ordre. Même avec $K$ ordres (par exemple $K=20$ ), l'approche AR reste jusqu'à 25 fois plus efficace que les modèles de diffusion.

3. Contributions Clés

Identification d'une limitation critique : Mise en évidence du fait que l'ordre fixe des jetons dans les modèles AR limite leur potentiel en classification générative en introduisant un biais inductif trop fort.
Cadre de marginalisation d'ordre : Proposition d'une méthode utilisant des modèles AR "any-order" (RandAR) pour moyenner les prédictions sur plusieurs ordres de jetons, améliorant ainsi la capture d'informations contextuelles globales.
Performance et Efficacité : Démonstration que cette approche surpasse les classificateurs basés sur la diffusion (DiT, SiT) en termes de précision et de robustesse, tout en étant nettement plus rapide à l'inférence.
Comparaison inédite : Première comparaison des classificateurs génératifs (GC) avec des modèles discriminatifs auto-supervisés de l'état de l'art (DINOv2), montrant que les GC peuvent désormais rivaliser avec ces modèles discriminatifs puissants.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks, notamment ImageNet-1K et des ensembles de données hors distribution (OOD) comme ImageNet-R, ImageNet-Sketch, ImageNet-A et ImageNet-C.

Précision sur ImageNet-1K :
- Le modèle RandAR-XL atteint 81,3 % de précision Top-1, surpassant significativement les modèles AR fixes (LlamaGen à 55,9 %, VAR à 63,0 %) et les classificateurs de diffusion (DiT à 77,2 %, SiT à 69,7 %).
- Il rivalise avec DINOv2-XL (82,7 %), un modèle discriminatif auto-supervisé de pointe, avec seulement un écart de 1,4 %.
Robustesse (Hors Distribution - OOD) :
- RandAR surpasse systématiquement les classificateurs de diffusion et les modèles discriminatifs sur les benchmarks OOD.
- Sur ImageNet-R (style/réalité), RandAR-XL atteint 53,0 % contre 40,2 % pour DiT et 48,6 % pour DINOv2.
- Sur ImageNet-Sketch, il obtient 45,9 % contre 36,7 % pour DiT.
Efficacité (Temps d'inférence) :
- RandAR offre une accélération allant jusqu'à 25x par rapport aux classificateurs de diffusion pour une précision supérieure.
- L'analyse montre que l'augmentation de $K$ (nombre d'ordres) améliore continuellement la précision, avec un point de rendement optimal autour de $K=20$ .
Analyse des erreurs :
- Les erreurs des deux modèles (RandAR et DINOv2) sont similaires (confusion entre classes visuellement proches, images multi-objets). Cependant, RandAR montre une capacité intéressante à attribuer de fortes vraisemblances aux objets corrects même lorsque la classe globale est erronée, suggérant une compréhension sémantique fine.

5. Signification et Conclusion

Ce travail redéfinit le paysage des classificateurs génératifs en démontrant que les modèles autoregressifs, souvent considérés comme inférieurs aux modèles de diffusion pour la classification, peuvent atteindre des performances de pointe grâce à une conception architecturale adaptée (marginalisation de l'ordre).

Points clés de l'impact :

Démocratisation des GC : La méthode rend les classificateurs génératifs compétitifs non seulement avec les modèles génératifs, mais aussi avec les meilleurs classificateurs discriminatifs (DINOv2), ce qui n'avait jamais été réalisé auparavant.
Efficacité : La capacité d'atteindre une haute précision avec une inférence 25 fois plus rapide que la diffusion ouvre la voie à des applications temps réel ou à grande échelle.
Perspectives futures : Les auteurs suggèrent que l'intégration de techniques d'apprentissage auto-supervisé (SSL) et l'exploration de prédicteurs d'ordre adaptatifs pourraient encore améliorer ces modèles. De plus, la distillation de ces classificateurs génératifs performants vers des modèles discriminatifs rapides pourrait combiner le meilleur des deux mondes.

En résumé, l'article prouve que la flexibilité de l'ordre de génération est un levier crucial pour libérer le plein potentiel des modèles autoregressifs en vision par ordinateur, les plaçant au premier plan de la classification d'images générative.