NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un architecte chargé de construire une cathédrale magnifique, mais vous avez une seule heure pour le faire.

La méthode traditionnelle (les modèles d'IA actuels comme FLUX ou SD3) consiste à prendre un plan détaillé et à commencer à poser chaque brique, une par une, du sol jusqu'au toit, en vérifiant chaque détail immédiatement. C'est précis, mais c'est lourd et lent. Si vous voulez une cathédrale géante (une image haute résolution), cela prend beaucoup de temps et d'énergie.

Le papier que vous avez partagé présente NAMI, une nouvelle façon de faire les choses. Voici comment cela fonctionne, expliqué simplement :

1. La Grande Idée : Ne pas tout faire d'un coup

Au lieu de construire toute la cathédrale d'un seul coup avec la même équipe, NAMI divise le travail en trois étapes distinctes, comme si vous construisiez d'abord une maquette en carton, puis une structure en bois, et enfin la cathédrale en pierre.

Étape 1 (La Maquette) : On commence avec une image toute petite (basse résolution). On ne met pas tous les détails. On dessine juste les grandes lignes : "Où est le ciel ? Où sont les murs ?". Pour cela, on utilise une petite équipe (peu de couches de l'IA). C'est très rapide.
Étape 2 (Le Squelette) : On agrandit l'image. On ajoute un peu plus de détails. On fait appel à une équipe un peu plus grande.
Étape 3 (Les Détails) : On arrive à la taille finale (haute résolution). C'est là qu'on ajoute les vitraux, les sculptures et les couleurs vives. On utilise l'équipe complète (toutes les couches de l'IA) pour peaufiner le tout.

2. Le Secret : Le "Pont" (BridgeFlow)

Le problème avec cette méthode, c'est le passage d'une étape à l'autre. Si vous passez d'une maquette en carton à une structure en bois, il faut que ça colle parfaitement, sinon l'image devient floue ou bizarre.

Les autres méthodes utilisent des techniques mathématiques complexes (et lentes) pour faire ce saut. NAMI invente un pont intelligent appelé BridgeFlow.

Imaginez que ce pont est un traducteur expert qui prend la maquette en carton, la "nettoie" et la transforme instantanément en un plan parfait pour l'étape suivante, sans perdre le sens de l'histoire.
Ce pont apprend à faire ce travail lui-même, ce qui rend le passage entre les étapes fluide et ultra-rapide.

3. Pourquoi c'est génial ? (Les Résultats)

Grâce à cette astuce, NAMI est comme un coureur qui sait exactement quand courir vite et quand économiser son énergie.

Vitesse fulgurante : Pour créer une image de haute qualité (1024x1024 pixels), NAMI est 64 % plus rapide que les meilleurs modèles actuels de la même taille. C'est comme passer d'une voiture de ville à une Formule 1.
Qualité préservée : Même si on commence petit, le résultat final est aussi beau et précis que les modèles lents. L'IA comprend bien ce qu'on lui demande (par exemple : "un chat violet sur une lune en chocolat").
Moins de gaspillage : On n'utilise pas une équipe de 100 personnes pour dessiner un croquis rapide. On adapte la taille de l'équipe à la tâche du moment.

4. Le Nouveau Test (NAMI-1K)

Les auteurs disent aussi : "Les tests actuels pour juger les IA sont trop faciles ou biaisés (comme des questions à choix multiples trop simples)."
Alors, ils ont créé leur propre examen, NAMI-1K. C'est un test avec 1 000 questions variées, écrites par des humains et des IA, pour voir si le modèle comprend vraiment le monde réel, l'humour et les situations complexes. NAMI a très bien réussi cet examen.

En résumé

NAMI, c'est l'art de découper un gros problème en petits morceaux gérables et d'utiliser la bonne quantité de puissance de calcul au bon moment. Au lieu de forcer l'ordinateur à tout calculer d'un coup, on lui demande de faire un croquis rapide, puis de l'améliorer progressivement, en utilisant un "pont magique" pour relier les étapes.

Le résultat ? Des images magnifiques, générées en un temps record, comme si l'IA avait appris à être plus efficace sans sacrifier sa créativité.

Each language version is independently generated for its own context, not a direct translation.

Titre : NAMI : Génération d'images efficace via des Transformers à Flux Rectifié Progressif et Pontés

1. Problématique

Les modèles de génération d'images basés sur les flux (Flow-based) et les Transformers (comme DiT - Diffusion Transformers) ont atteint des performances de pointe (SOTA) en termes de qualité d'image. Cependant, ils souffrent de deux limitations majeures :

Coût computationnel élevé : La taille massive des paramètres entraîne une latence d'inférence et des coûts de calcul prohibitifs, rendant la commercialisation difficile.
Inefficacité des méthodes existantes : Les approches actuelles pour accélérer l'inférence (comme le sous-échantillonnage de l'espace latent ou la réduction des tokens) entraînent souvent une dégradation de la qualité. De plus, la plupart des méthodes traitent le processus de génération de manière uniforme à toutes les résolutions, ignorant le fait que la génération d'une image commence par des concepts grossiers (basse résolution) avant d'ajouter des détails fins (haute résolution).

2. Méthodologie : L'architecture NAMI

Les auteurs proposent NAMI (Bridged Progressive Rectified Flow Transformers), un cadre spatio-temporel qui décompose le processus de génération en plusieurs étapes hiérarchiques basées sur la résolution.

A. Flux Rectifié Progressif (Progressive Rectified Flow)

Au lieu d'un processus unique, NAMI divise le flux rectifié en $K$ fenêtres temporelles correspondant à différentes résolutions (ex: 256, 512, 1024).

Stades à basse résolution : Utilisent un nombre réduit de couches de Transformers pour générer rapidement la mise en page (layout) et les contours conceptuels.
Stades à haute résolution : Ajoutent progressivement plus de couches de Transformers pour affiner les détails et améliorer la qualité.
Entraînement Multi-résolution : Contrairement aux méthodes séquentielles (d'abord basse, puis haute résolution), NAMI entraîne simultanément des données de différentes résolutions, favorisant le partage de connaissances et évitant l'oubli catastrophique.

B. Module BridgeFlow

Pour assurer la continuité entre les étapes de résolution différente, les auteurs introduisent le module BridgeFlow.

Fonctionnement : Ce module aligne les distributions de probabilité aux points de transition (jump points) entre les étapes. Il applique un suréchantillonnage (upsampling) suivi d'une transformation linéaire apprenable ( $W \cdot x + B$ ) pour adapter la sortie d'une étape à l'entrée de la suivante.
Avantage : Contrairement aux méthodes précédentes (comme Pyramid Flow) qui utilisent des ré-échantillonnages non paramétriques et coûteux, BridgeFlow est apprenable, plus robuste et efficace en termes de temps d'inférence.

C. Architecture du Modèle

NAMI est construit sur la base des blocs MM-DiT (utilisés dans FLUX).

Le modèle NAMI-2B possède 22 couches au total, réparties dynamiquement selon la résolution (ex: ratio 9:7:6 pour les étapes 256/512/1024).
Il utilise des encodeurs de texte multilingues (mT5, mCLIP).

3. Contributions Clés

Architecture Progressive : Introduction d'un cadre de flux rectifié divisé par résolution, permettant un apprentissage rapide des sémantiques à basse résolution et des détails à haute résolution.
Module BridgeFlow : Une méthode apprenable pour aligner les flux entre les étapes, remplaçant les mécanismes non paramétriques inefficaces.
Gain d'Efficacité : Réduction drastique du temps d'inférence grâce à l'utilisation de sous-ensembles de paramètres pour les étapes initiales et à la décomposition spatiale.
Nouveau Benchmark (NAMI-1K) : Création d'un jeu de données d'évaluation de 1 000 prompts, combinant des benchmarks open-source, des prompts générés par IA et des prompts humains, pour évaluer les préférences humaines et corriger les biais de distribution des benchmarks existants.

4. Résultats Expérimentaux

Performance et Efficacité

Vitesse d'inférence : Pour la génération d'images en 1024x1024, NAMI-2B réduit le temps d'inférence de 64 % par rapport à un modèle FLUX de même taille (2B paramètres) sans architecture NAMI.
- La décomposition du flux par résolution contribue à 53 % de ce gain.
- La partition du modèle (réduction des couches) contribue à 11 % supplémentaire.
Convergence : L'entraînement multi-résolution permet une convergence plus rapide et une meilleure stabilité.

Qualité de Génération

Benchmarks Ouverts : Sur GenEval et DPG-Benchmark, NAMI-2B (2B paramètres) obtient des résultats compétitifs, surpassant souvent des modèles de taille similaire (SD3-medium, Hunyuan-DiT, SANA) et se rapprochant de modèles beaucoup plus grands (FLUX-dev 12B) sur certaines métriques de cohérence textuelle.
Évaluation Humaine (NAMI-1K) : Sur le nouveau benchmark NAMI-1K, NAMI-2B obtient le meilleur score global parmi les modèles de taille comparable (2B), surpassant SD3, Infinity et SANA en termes de pertinence, cohérence, esthétique et réalisme.

Ablation Studies

L'ajout du module BridgeFlow est crucial pour la qualité et la vitesse, surpassant les méthodes de ré-échantillonnage classiques (Upsample + MLP, Pixel Shuffle + CNN).
La répartition des couches (Layer Partitioning) montre qu'un nombre insuffisant de couches à basse résolution dégrade la performance, tandis qu'un excès crée de la redondance.

5. Signification et Impact

Le papier NAMI apporte une contribution significative à l'efficacité des modèles de génération d'images :

Démocratisation : En réduisant le temps d'inférence de 64 % sans sacrifier la qualité, NAMI rend les modèles de haute résolution plus viables pour des applications commerciales et grand public.
Nouvelle Approche Architecturale : La combinaison de la séparation temporelle (flux progressif) et spatiale (partition des couches) offre une nouvelle voie pour optimiser les Transformers de diffusion, orthogonal aux méthodes de compression de tokens ou d'attention linéaire.
Évaluation Plus Juste : La proposition du benchmark NAMI-1K adresse le problème critique de la diversité limitée des prompts dans les évaluations actuelles, offrant une mesure plus fiable des capacités réelles des modèles.

En résumé, NAMI démontre qu'il est possible d'accélérer considérablement la génération d'images haute résolution en exploitant la nature hiérarchique du processus de création d'image, tout en maintenant un niveau de qualité compétitif avec les modèles les plus avancés.