NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Le papier présente NAMI, une architecture de transformateurs à flux rectifié progressif et ponté qui améliore l'efficacité de la génération d'images en décomposant le processus sur plusieurs résolutions, réduisant ainsi le temps d'inférence de 64 % pour des images de 1024 pixels tout en maintenant une qualité compétitive.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

Publié 2026-03-09
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un architecte chargé de construire une cathédrale magnifique, mais vous avez une seule heure pour le faire.

La méthode traditionnelle (les modèles d'IA actuels comme FLUX ou SD3) consiste à prendre un plan détaillé et à commencer à poser chaque brique, une par une, du sol jusqu'au toit, en vérifiant chaque détail immédiatement. C'est précis, mais c'est lourd et lent. Si vous voulez une cathédrale géante (une image haute résolution), cela prend beaucoup de temps et d'énergie.

Le papier que vous avez partagé présente NAMI, une nouvelle façon de faire les choses. Voici comment cela fonctionne, expliqué simplement :

1. La Grande Idée : Ne pas tout faire d'un coup

Au lieu de construire toute la cathédrale d'un seul coup avec la même équipe, NAMI divise le travail en trois étapes distinctes, comme si vous construisiez d'abord une maquette en carton, puis une structure en bois, et enfin la cathédrale en pierre.

  • Étape 1 (La Maquette) : On commence avec une image toute petite (basse résolution). On ne met pas tous les détails. On dessine juste les grandes lignes : "Où est le ciel ? Où sont les murs ?". Pour cela, on utilise une petite équipe (peu de couches de l'IA). C'est très rapide.
  • Étape 2 (Le Squelette) : On agrandit l'image. On ajoute un peu plus de détails. On fait appel à une équipe un peu plus grande.
  • Étape 3 (Les Détails) : On arrive à la taille finale (haute résolution). C'est là qu'on ajoute les vitraux, les sculptures et les couleurs vives. On utilise l'équipe complète (toutes les couches de l'IA) pour peaufiner le tout.

2. Le Secret : Le "Pont" (BridgeFlow)

Le problème avec cette méthode, c'est le passage d'une étape à l'autre. Si vous passez d'une maquette en carton à une structure en bois, il faut que ça colle parfaitement, sinon l'image devient floue ou bizarre.

Les autres méthodes utilisent des techniques mathématiques complexes (et lentes) pour faire ce saut. NAMI invente un pont intelligent appelé BridgeFlow.

  • Imaginez que ce pont est un traducteur expert qui prend la maquette en carton, la "nettoie" et la transforme instantanément en un plan parfait pour l'étape suivante, sans perdre le sens de l'histoire.
  • Ce pont apprend à faire ce travail lui-même, ce qui rend le passage entre les étapes fluide et ultra-rapide.

3. Pourquoi c'est génial ? (Les Résultats)

Grâce à cette astuce, NAMI est comme un coureur qui sait exactement quand courir vite et quand économiser son énergie.

  • Vitesse fulgurante : Pour créer une image de haute qualité (1024x1024 pixels), NAMI est 64 % plus rapide que les meilleurs modèles actuels de la même taille. C'est comme passer d'une voiture de ville à une Formule 1.
  • Qualité préservée : Même si on commence petit, le résultat final est aussi beau et précis que les modèles lents. L'IA comprend bien ce qu'on lui demande (par exemple : "un chat violet sur une lune en chocolat").
  • Moins de gaspillage : On n'utilise pas une équipe de 100 personnes pour dessiner un croquis rapide. On adapte la taille de l'équipe à la tâche du moment.

4. Le Nouveau Test (NAMI-1K)

Les auteurs disent aussi : "Les tests actuels pour juger les IA sont trop faciles ou biaisés (comme des questions à choix multiples trop simples)."
Alors, ils ont créé leur propre examen, NAMI-1K. C'est un test avec 1 000 questions variées, écrites par des humains et des IA, pour voir si le modèle comprend vraiment le monde réel, l'humour et les situations complexes. NAMI a très bien réussi cet examen.

En résumé

NAMI, c'est l'art de découper un gros problème en petits morceaux gérables et d'utiliser la bonne quantité de puissance de calcul au bon moment. Au lieu de forcer l'ordinateur à tout calculer d'un coup, on lui demande de faire un croquis rapide, puis de l'améliorer progressivement, en utilisant un "pont magique" pour relier les étapes.

Le résultat ? Des images magnifiques, générées en un temps record, comme si l'IA avait appris à être plus efficace sans sacrifier sa créativité.