How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Ce papier présente UniLongGen, une stratégie d'inférence sans entraînement qui améliore la fiabilité de la génération d'images intercalées à long terme en curant dynamiquement le contexte pour éliminer les signaux visuels polluants qui dégradent la qualité de la synthèse.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste très talentueux de dessiner une bande dessinée de 40 pages, où il alterne entre écrire une phrase et dessiner une image, encore et encore.

Au début, c'est magnifique. Les personnages sont beaux, l'histoire est cohérente. Mais dès la page 20 ou 25, quelque chose de bizarre se produit : le dessin commence à se déformer. Le personnage perd son visage, les couleurs deviennent chaotiques, et l'histoire devient illisible. C'est ce que les chercheurs appellent un "effondrement" de la génération.

Le papier UniLongGen explique pourquoi cela arrive et propose une solution ingénieuse, sans avoir besoin de réentraîner l'artiste.

Voici l'explication simple, avec des analogies du quotidien :

1. Le Problème : L'Artiste qui a trop de souvenirs (et pas assez de filtre)

Habituellement, on pensait que l'artiste échouait parce qu'il avait "trop de choses à retenir" (trop de mots, trop de pixels). C'est comme si sa mémoire était pleine.

Mais les chercheurs ont découvert que ce n'est pas une question de quantité, mais de type de souvenirs.

  • Le texte est comme une liste de courses : si elle est longue, elle peut être un peu floue, mais elle ne gâche pas le dessin.
  • Les images, elles, sont comme des miroirs. Plus vous en ajoutez dans la pièce, plus ils réfléchissent la lumière.

L'analogie du "Bruit Visuel" :
Imaginez que vous essayez de peindre un portrait en regardant un seul miroir (l'image de référence). C'est facile. Maintenant, imaginez que vous mettez 20 miroirs autour de vous, tous reflétant des objets différents. Votre cerveau (l'intelligence artificielle) se concentre sur le reflet le plus brillant ou le plus proche, même si ce n'est pas le bon objet.
Dans le cas de l'IA, ces "miroirs" sont les anciennes images générées. Elles créent un bruit qui "vole" l'attention de l'IA. Au lieu de regarder l'instruction actuelle, l'IA se laisse distraire par un détail d'une image générée il y a 15 pages. Résultat : le nouveau dessin mélange des éléments de l'histoire ancienne avec la nouvelle, créant un monstre visuel.

2. La Solution : Le "Filtre Intelligent" (UniLongGen)

Au lieu de forcer l'artiste à se souvenir de tout (ce qui le rend fou), UniLonggen lui apprend à oublier activement ce qui est inutile.

C'est comme un chef de cuisine qui prépare un grand banquet.

  • L'approche ancienne : Le chef garde tous les ingrédients de tous les plats précédents sur le comptoir. À la fin, il y a des oignons, du chocolat, des clous et des tomates partout. Il ne sait plus quoi utiliser pour le plat actuel.
  • L'approche UniLongGen : Le chef a un assistant (le système de curation). Avant de commencer le nouveau plat, l'assistant regarde la recette, puis va dans le garde-manger et jette tous les ingrédients qui ne servent pas à ce plat précis. Il ne garde que les 3 ou 4 ingrédients essentiels.

Comment ça marche techniquement (en version simple) ?
Le système utilise deux "yeux" pour trier les souvenirs :

  1. L'œil du début (pour le texte) : Il regarde les anciennes phrases pour s'assurer que l'histoire a du sens.
  2. L'œil de la fin (pour l'image) : Il regarde les anciennes images pour s'assurer que le personnage ressemble toujours au même.

Ensuite, il applique une règle stricte : "Ne gardez que les meilleurs souvenirs, et jetez le reste." Il ne compresse pas les images (ce qui les rendrait floues), il les supprime purement et simplement de la mémoire de l'IA au moment de dessiner.

3. Les Résultats Magiques

Grâce à cette méthode, l'IA peut désormais générer plus de 40 images d'affilée sans perdre le nord.

  • Qualité : Les images restent nettes et belles jusqu'à la dernière page.
  • Cohérence : Le personnage garde son visage et son style tout au long de l'histoire.
  • Vitesse : C'est même plus rapide ! En enlevant le "bruit" inutile, l'IA travaille plus vite, comme un artiste qui n'a plus à trier une montagne de papiers inutiles.

En résumé

Le papier nous dit : "Pour faire de longs dessins animés avec l'IA, il ne faut pas lui donner une mémoire infinie, mais lui apprendre à faire le tri."

C'est la différence entre un bibliothécaire qui empile tous les livres sur une table (et finit par ne plus rien trouver) et un bibliothécaire qui ne sort que les 3 livres nécessaires pour le chapitre en cours. UniLongGen est ce bibliothécaire intelligent qui sauve l'histoire de l'effondrement.