Next Visual Granularity Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez peindre un tableau magnifique, mais au lieu de commencer par des détails précis comme le reflet dans l'œil d'un chien, vous commencez par une grande tache de couleur pour le ciel, puis vous ajoutez la forme générale du chien, ensuite ses pattes, et enfin les poils individuels. C'est exactement la philosophie derrière le nouveau modèle NVG (Next Visual Granularity) présenté dans ce papier.

Voici une explication simple, avec des images mentales, de comment cela fonctionne et pourquoi c'est révolutionnaire.

1. Le problème : Comment les ordinateurs "voient" les images ?

Actuellement, il existe deux grandes écoles pour faire générer des images par l'IA :

Les modèles "Diffusion" (comme DALL-E 3 ou Midjourney) : Imaginez un brouillard épais qui se dissipe lentement. L'ordinateur part d'un bruit statique (comme de la neige sur une vieille télé) et, étape par étape, il "nettoie" le bruit pour révéler l'image. C'est très beau, mais c'est lent et parfois difficile à contrôler précisément.
Les modèles "Autoregressifs" (comme VAR) : Imaginez que l'ordinateur lit l'image comme un livre, mot par mot, de gauche à droite. Il devine le premier "mot" (un pixel ou un petit groupe), puis le deuxième, et ainsi de suite. Le problème ? S'il se trompe au début, l'erreur s'accumule comme une boule de neige qui grossit, et le résultat final peut être bizarre.

2. La solution NVG : La méthode du "Squelette et de la Chair"

L'équipe derrière NVG a eu une idée brillante : décomposer l'image en niveaux de détail (granularité), comme une poupée russe ou des couches de peinture.

Au lieu de générer pixel par pixel ou mot par mot, NVG génère l'image par étapes de précision croissante :

Le Squelette (Structure) : D'abord, l'IA dessine une carte très simple, presque comme un dessin au trait en noir et blanc. Elle décide : "Ici, c'est le fond, là, c'est l'objet principal". C'est le plan de l'architecte.
La Chair (Contenu) : Ensuite, elle remplit ce plan avec des couleurs et des formes grossières.
Les Détails : Puis, elle affine les contours.
La Texture : Enfin, elle ajoute les petits détails (les poils, les reflets, les textures).

L'analogie du sculpteur :
Imaginez un sculpteur qui travaille sur une statue de marbre.

Il ne commence pas par sculpter le nez.
Il commence par tailler un gros bloc de pierre pour donner la forme générale (la tête, le corps).
Ensuite, il affine les épaules et les bras.
Puis il sculpte les traits du visage.
Et enfin, il polisse la surface pour rendre la peau lisse.

NVG fait exactement cela, mais numériquement. À chaque étape, il ajoute de la "granularité" (de la finesse) à l'image.

3. Pourquoi est-ce si bien ?

A. Pas de "boule de neige" d'erreurs

Dans les modèles classiques qui lisent mot par mot, si le premier mot est faux, tout le reste est faux. Avec NVG, comme on commence par une structure globale (le squelette), on a une base solide. Si on se trompe un peu sur un détail plus tard, on peut le corriger sans tout casser, car les grandes lignes sont déjà tracées. C'est comme si vous aviez toujours le plan de la maison sous les yeux pendant que vous posez les briques.

B. Contrôle total (Le "Plan d'Architecte")

C'est l'aspect le plus cool. Puisque l'IA génère d'abord la structure (la carte des zones), vous pouvez lui donner votre propre plan.

Exemple : Vous pouvez dire à l'IA : "Je veux un lapin, mais je veux qu'il ait exactement la même forme et la même pose que ce flamant rose que j'ai pris en photo."
L'IA prend la structure du flamant (le squelette) et y "habille" un lapin. Le résultat est un lapin qui a la posture élégante d'un flamant. C'est comme changer le costume d'un mannequin sans changer sa posture.

C. Rapidité et Efficacité

Le papier montre que NVG est plus rapide que les modèles de diffusion (qui doivent faire des centaines de passes) et souvent plus précis que les modèles autoregressifs classiques. Il utilise moins de mémoire et génère des images de très haute qualité (très réalistes) en moins de temps.

En résumé

Ce papier propose une nouvelle façon de "penser" la création d'images par ordinateur. Au lieu de deviner l'image mot à mot ou de nettoyer du bruit, l'IA construit l'image par couches, du plus grossier au plus fin.

C'est comme passer d'un dessin au crayon flou à une photo haute définition, étape par étape, en gardant toujours le contrôle sur la forme globale avant de se soucier des détails. C'est plus intelligent, plus rapide, et surtout, cela permet de dire à l'IA : "Voici la forme, remplis-la avec ce que tu veux !"

Le résultat ? Des images plus belles, plus réalistes, et un contrôle créatif beaucoup plus puissant pour les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles génératifs actuels interprètent les images de manière souvent limitée :

Modèles basés sur des tokens (Autoregressifs) : Traitent l'image comme une séquence linéaire (comme du texte), ignorant la structure spatiale 2D intrinsèque et souffrant de l'accumulation d'erreurs (biais d'exposition).
Modèles basés sur des distributions (Diffusion/Flow) : Modélisent l'image comme un échantillon d'une distribution de probabilité. Bien que performants, ils nécessitent souvent des modules conditionnels supplémentaires pour un contrôle structurel précis.
Modèles Visuels Autoregressifs (VAR) : Utilisent une pyramide visuelle résiduelle, mais peuvent mélanger des informations visuelles proches mais sémantiquement distinctes, créant une ambiguïté de représentation, surtout aux premiers stades où un seul token représente une grande région.

Le défi principal est de créer un cadre de génération qui capture naturellement la granularité visuelle hiérarchique (du global aux détails) tout en offrant un contrôle structurel explicite et en réduisant les biais de génération.

2. Méthodologie : Le Cadre NVG

L'article propose le cadre Next Visual Granularity (NVG), qui décompose l'image en une séquence structurée de granularités croissantes.

A. Construction de la Séquence de Granularité Visuelle (VGS)

Au lieu d'une simple compression spatiale, NVG construit une séquence où chaque étape $i$ représente l'image avec le même nombre de pixels spatiaux, mais avec un nombre différent de tokens uniques (contenus).

Approche Bottom-Up : L'algorithme commence par la granularité la plus fine (chaque pixel a un token unique) et regroupe itérativement les tokens les plus similaires (par clustering) jusqu'à ce qu'une seule cluster représente l'image entière.
Représentation : Chaque étape $i$ $i$ est définie par une paire $(c_i, s_i)$ $(c_{i}, s_{i})$ :
- Contenu ( $c_i$ ) : Un ensemble de $n_i$ tokens uniques extraits d'un codebook partagé.
- Structure ( $s_i$ ) : Une carte de structure binaire (ou multi-classe) de taille $h \times w$ indiquant l'assignation de chaque token dans l'espace latent.
Embedding de Structure : Une représentation hiérarchique compacte (basée sur des vecteurs de bits) est utilisée pour encoder les relations parent-enfant entre les étapes, compatible avec les embeddings de position rotationnels (RoPE).

B. Pipeline de Génération

La génération suit un processus itératif de grossier à fin, inversant la construction :

Génération de Structure : Un modèle léger (basé sur le Rectified Flow) génère d'abord la carte de structure pour l'étape courante. Cela permet de définir la disposition spatiale (ex: séparation avant/arrière-plan) avant d'ajouter le contenu. Le modèle traite cela comme un problème d'inpainting structurel.
Génération de Contenu : Un générateur de contenu (Transformeur) prédit les tokens uniques pour cette étape.
- Raffinement de la Toile (Canvas Refinement) : Contrairement aux modèles autoregressifs classiques qui prédisent le prochain token, NVG prédit la toile finale ( $x$ ) à partir de la toile actuelle ( $x_{i-1}$ ).
- Apprentissage Résiduel : Le modèle apprend à prédire la différence (erreur de quantisation) entre la toile actuelle et l'image finale. Cela réduit le biais d'exposition et permet de corriger les erreurs des étapes précédentes.
Contrôle Explicite : Les cartes de structure peuvent être fournies par l'utilisateur (ex: masques de segmentation simples) pour guider la génération, offrant un contrôle natif sans module conditionnel post-hoc.

3. Contributions Clés

Granularité Visuelle Structurée : Introduction d'une nouvelle représentation d'image basée sur le nombre de tokens uniques plutôt que sur la résolution spatiale, capturant naturellement les niveaux de détails.
Contrôle Structurel Natif : La séparation explicite entre la génération de la structure (disposition) et du contenu (texture/détails) permet un contrôle fin et interprétable du processus de génération.
Réduction du Biais d'Exposition : L'approche de prédiction résiduelle de la toile finale atténue l'accumulation d'erreurs typique des modèles autoregressifs.
Évolutivité (Scalability) : Le cadre montre une amélioration cohérente des performances avec l'augmentation de la taille du modèle.

4. Résultats Expérimentaux

Les modèles NVG ont été entraînés sur le dataset ImageNet (génération conditionnelle par classe) et comparés aux modèles de l'état de l'art (GANs, Diffusion, VAR, Autoregressifs).

Performance Quantitative (FID sur ImageNet 256x256) :
- NVG surpasse systématiquement la série VAR (Visual Autoregressive).
- Comparaison des scores FID (plus bas est mieux) :
  - VAR-d16 (3.30) $\rightarrow$ NVG-d16 (3.03)
  - VAR-d20 (2.57) $\rightarrow$ NVG-d20 (2.44)
  - VAR-d24 (2.09) $\rightarrow$ NVG-d24 (2.06)
- NVG obtient également des scores IS (Inception Score) et de rappel (Recall) supérieurs ou comparables.
Efficacité : NVG nécessite moins d'étapes de génération (9 étapes vs 10 pour VAR) et moins de paramètres pour des performances équivalentes ou supérieures.
Qualité Visuelle : Les images générées montrent une meilleure cohérence structurelle et une diversité élevée. Le modèle peut réutiliser des structures d'images de référence pour générer de nouveaux contenus (transfert de structure).
Analyse des Cas Extrêmes : NVG démontre une robustesse face à des cartes de structure floues ou à des scènes complexes avec de multiples objets, en affinant progressivement les détails.

5. Signification et Impact

L'article NVG marque une avancée significative dans la génération d'images en :

Dépassant le paradigme "Pyramide Spatiale" : En passant d'une compression spatiale (VAR) à une compression basée sur la granularité des tokens, NVG résout l'ambiguïté sémantique des premières étapes de génération.
Unifiant Contrôle et Génération : Il intègre le contrôle structurel directement dans le processus de génération (via les cartes de structure) plutôt que de l'ajouter comme une couche externe, rendant le système plus robuste et interprétable.
Offrant une nouvelle voie pour la génération contrôlée : La capacité à séparer la structure du contenu ouvre des perspectives pour des applications en design, visualisation scientifique et génération vidéo cohérente, où le respect de la géométrie et de la hiérarchie est crucial.

En résumé, NVG propose une approche plus "naturelle" et structurée de la génération d'images, imitant le processus de peinture (du croquis aux détails) tout en surpassant les performances des modèles autoregressifs et de diffusion actuels.