Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Dilemme du Peintre : Vitesse vs Qualité

Imaginez que vous devez peindre un tableau magnifique, mais vous êtes obligé de le faire pixel par pixel, dans un ordre très strict (de gauche à droite, de haut en bas), comme si vous lisiez un livre. C'est ce que font les anciens modèles de génération d'images (comme les "modèles autorégressifs").

Le problème ? C'est lents.

Si votre tableau fait 256x256 pixels, vous devez faire 65 536 coups de pinceau, un par un.
C'est comme si vous deviez attendre que le premier pixel soit séché avant de pouvoir peindre le deuxième.
Résultat : Vous passez beaucoup de temps à attendre, et votre ordinateur s'ennuie car il ne peut pas travailler sur plusieurs pixels en même temps.

Les chercheurs ont essayé de peindre plusieurs pixels à la fois (parallélisme), mais c'était comme essayer de peindre une maison en même temps : si vous ne faites pas attention, vous peignez un mur qui n'a pas de fondation, ou vous mettez une fenêtre là où il devrait y avoir un mur. L'image devient floue ou bizarre.

🚀 La Solution : LPD (Décodage Parallèle "Conscient de la Proximité")

L'équipe du MIT et de NVIDIA a inventé une nouvelle méthode appelée LPD. Pour faire simple, c'est comme passer d'un peintre solitaire qui travaille lentement à une équipe de peintres coordonnés qui travaillent ensemble intelligemment.

Voici comment ils ont fait, avec deux astuces principales :

1. Le "Guide de Position" (L'Architecte et les Ouvriers)

Dans les anciennes méthodes, le modèle devait deviner quel pixel peindre ensuite. C'était rigide.
Dans la méthode LPD, ils utilisent de petits jetons de "position" (comme des étiquettes magiques).

L'analogie : Imaginez un chef de chantier (le modèle) qui a une liste de tâches. Au lieu de dire "Peins le pixel 1, puis le 2", il dit : "Ouvriers, allez peindre tous les pixels marqués par les étiquettes A, B et C en même temps !"
Le secret : Ces étiquettes disent au modèle exactement où il doit peindre. Cela permet de sauter l'ordre rigide (gauche-droite) et de peindre n'importe où, tant que le modèle sait où il est.

2. La Règle du "Voisinage Intelligent" (La Loi de la Proximité)

C'est ici que la magie opère. Les chercheurs ont remarqué quelque chose d'intéressant en regardant comment les modèles "pensent" : un pixel a beaucoup plus besoin de connaître ses voisins immédiats que des pixels lointains.

L'analogie : Si vous peignez un visage, pour peindre le nez, il est très utile de savoir où sont les yeux et la bouche (les voisins). Par contre, savoir exactement ce qui se passe dans le coin du tableau (loin du nez) n'est pas très utile pour le nez.
La stratégie LPD : Au lieu de peindre des pixels au hasard ou en ligne droite, l'algorithme choisit intelligemment qui peindre ensemble :
1. Il choisit des pixels proches de ce qui a déjà été peint (pour avoir un bon contexte, comme un bon voisinage).
2. Il s'assure que les pixels qu'il peint en même temps sont loins les uns des autres (pour qu'ils ne se gênent pas et ne se contredisent pas).

C'est comme organiser une équipe de pompiers : on envoie une équipe sur un incendie (proche du feu), mais on ne met pas deux équipes trop proches l'une de l'autre pour qu'elles ne se marchent pas dessus.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Grâce à cette méthode, les résultats sont bluffants :

Moins d'étapes, plus vite : Au lieu de faire 256 étapes pour une image (comme les anciennes méthodes), ils n'en font plus que 20. C'est comme passer d'un trajet en voiture avec 256 feux rouges à un trajet en TGV avec seulement 20 arrêts.
Qualité préservée : Malgré cette vitesse folle, l'image est aussi belle, voire meilleure, que les anciennes méthodes.
Flexibilité : Comme ils ne sont pas bloqués dans un ordre rigide, ils peuvent faire des choses cool comme :
- Inpainting : Remplir un trou dans une image (comme réparer une photo abîmée).
- Outpainting : Étendre une image au-delà de ses bords.
- Édition : Changer un chat en chien dans une image sans tout redessiner.

En Résumé

Imaginez que vous devez remplir un tableau de Sudoku géant.

L'ancienne méthode : Vous remplissez les cases une par une, de haut en bas. C'est long et ennuyeux.
La méthode LPD : Vous avez une équipe de 20 amis. Vous leur dites : "Remplissez ces 20 cases spécifiques en même temps !" Mais vous êtes malin : vous choisissez des cases qui sont proches de ce qui est déjà rempli (pour que ce soit logique) mais pas trop proches les unes des autres (pour qu'ils ne se marchent pas dessus).

Résultat ? Vous terminez le tableau plus de 3 fois plus vite que les autres, avec une qualité incroyable. C'est cela, le LPD : de la peinture d'images intelligente, rapide et coordonnée.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation" (LPD), présenté à la conférence ICLR 2026.

1. Problématique

La génération d'images autoregressive (AR) traditionnelle, basée sur la prédiction de patchs successifs (un token à la fois), souffre d'une forte latence due à sa nature séquentielle. Ce processus est limité par la bande passante mémoire (memory-bound) car chaque étape nécessite le chargement des paramètres du modèle, empêchant une utilisation efficace de la puissance de calcul.

Bien que des travaux récents aient tenté de paralléliser la prédiction (prédiction de plusieurs patchs simultanément), ils se heurtent à deux limitations majeures :

Dépendances spatiales fortes : Les tokens voisins dans une image sont fortement interdépendants. Les prédire simultanément sans contraintes appropriées dégrade la qualité de génération.
Ordres de génération rigides : Les méthodes existantes (comme PAR ou ARPG) imposent souvent un ordre de génération fixe ou ne permettent pas une flexibilité suffisante pour optimiser le contexte disponible, limitant ainsi le degré de parallélisation réalisable sans perte de qualité.

2. Méthodologie : Locality-aware Parallel Decoding (LPD)

Les auteurs proposent un cadre innovant combinant une nouvelle architecture de modélisation et un calendrier de génération intelligent.

A. Modélisation Autoregressive Parallélisée Flexible (Flexible Parallelized Autoregressive Modeling)

Pour briser la séquentialité stricte tout en maintenant la cohérence, les auteurs introduisent une architecture qui découple la représentation du contexte de la génération du token.

Tokens de requête de position (Position Query Tokens) : Au lieu de prédire le "prochain" token séquentiellement, le modèle utilise des tokens de requête appris (associés à des embeddings de position spécifiques) pour cibler n'importe quelle position dans l'image.
Mécanisme d'attention spécialisé :
- Attention de contexte : Les tokens générés précédemment fournissent le contexte causal.
- Attention de requête : Les tokens de requête générés en parallèle au même pas de temps sont rendus mutuellement visibles. Cela permet aux tokens générés simultanément de s'influencer, assurant la cohérence au sein du groupe de génération.
Fusion Encodage/Décodage : Contrairement aux approches encodeur-décodeur (comme SAR) ou aux méthodes qui stockent les tokens d'instruction dans le cache KV (comme RandAR), LPD fusionne l'encodage des tokens générés et le décodage des requêtes en une seule étape, évitant la duplication de la mémoire et réduisant les étapes de génération.

B. Calendrier de Génération Conscient de la Localité (Locality-aware Generation Order Schedule)

L'analyse des cartes d'attention (via le modèle LLAMAGEN) révèle une forte localité spatiale : un token prête une attention disproportionnée à ses voisins immédiats.
Pour exploiter cela, les auteurs définissent deux principes pour l'ordre de génération :

Haute proximité avec le contexte : Les positions à générer doivent être spatialement proches des tokens déjà générés pour bénéficier d'un contexte fort.
Faible proximité au sein du groupe : Les tokens générés simultanément doivent être spatialement éloignés les uns des autres pour minimiser leurs dépendances mutuelles.

Algorithme :
Un algorithme itératif sélectionne les groupes de tokens à chaque pas de temps :

Il calcule la proximité euclidienne des tokens non générés par rapport au contexte existant.
Il filtre les candidats selon un seuil de proximité ( $\tau$ ) et un seuil de répulsion ( $\rho$ ) pour éviter de sélectionner des tokens trop proches entre eux dans le même groupe.
Si nécessaire, un échantillonnage du point le plus éloigné (Farthest Point Sampling) est utilisé pour remplir le groupe tout en maintenant la diversité spatiale.

3. Contributions Clés

Architecture Flexible : Une nouvelle méthode de modélisation AR qui permet un ordre de génération arbitraire et des degrés de parallélisation variables, surpassant les modèles "next-token" classiques et les approches encodeur-décodeur.
Stratégie de Délocalisation Intelligente : Un calendrier de génération qui maximise le support contextuel tout en minimisant les dépendances intra-groupe, permettant un parallélisme agressif sans sacrifier la qualité.
Efficacité Mémoire : Conception permettant de ne stocker que les tokens générés dans le cache KV (et non les tokens de requête), optimisant l'utilisation de la mémoire GPU.
Polyvalence : Le modèle supporte nativement l'édition d'images (inpainting, outpainting, modification conditionnelle de classe) grâce à la flexibilité de l'ordre de génération.

4. Résultats Expérimentaux

Les expériences ont été menées sur la génération conditionnelle de classes ImageNet (256x256 et 512x512) et sur le benchmark GenEval (1024x1024).

Réduction des étapes de génération :
- Résolution 256x256 : Passage de 256 étapes (ordre raster) à 20 étapes (LPD).
- Résolution 512x512 : Passage de 1024 étapes à 48 étapes.
Performance Latence :
- LPD-XL (752M paramètres) atteint un FID de 2.10 en 20 étapes, avec une latence 3,4 à 4,2 fois inférieure aux modèles parallélisés précédents (comme ARPG ou RandAR).
- À 32 étapes, LPD-XL atteint un FID de 1.92, égalant ARPG-XXL (1.3B) mais avec une latence 3,4 fois plus faible.
Qualité : La qualité de génération (FID, IS, Précision/Rappel) est maintenue, voire améliorée, malgré la réduction drastique du nombre d'étapes.
Génération Texte-Image : Extension réussie à 1024x1024 avec une réduction des étapes de 4096 à 64, tout en améliorant les scores GenEval.

5. Signification et Impact

Ce travail représente une avancée majeure pour la génération d'images autoregressive, souvent considérée comme trop lente pour des applications temps réel par rapport aux modèles de diffusion.

Interopérabilité : Contrairement aux méthodes "next-scale" (comme VAR) qui utilisent des représentations multi-échelles incompatibles avec les fondations visuelles plates (CLIP, DINO), LPD conserve une représentation de tokens plats, facilitant l'intégration dans des systèmes multimodaux unifiés.
Efficacité : En réduisant la latence d'un facteur 3,4x à 4,2x, LPD rend la génération autoregressive compétitive en termes de vitesse avec les modèles de diffusion, tout en conservant la simplicité d'inférence et la capacité d'édition flexible inhérentes aux modèles AR.
Généralité : La méthode s'applique à différentes résolutions et types de conditions (classes, textes), ouvrant la voie à des modèles de génération multimodaux plus rapides et plus efficaces.

En résumé, LPD résout le compromis historique entre la vitesse de génération et la qualité dans les modèles autoregressifs en introduisant une parallélisation intelligente guidée par la localité spatiale, permettant une génération d'images de haute qualité en un nombre d'étapes minimal.