How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste très talentueux de dessiner une bande dessinée de 40 pages, où il alterne entre écrire une phrase et dessiner une image, encore et encore.

Au début, c'est magnifique. Les personnages sont beaux, l'histoire est cohérente. Mais dès la page 20 ou 25, quelque chose de bizarre se produit : le dessin commence à se déformer. Le personnage perd son visage, les couleurs deviennent chaotiques, et l'histoire devient illisible. C'est ce que les chercheurs appellent un "effondrement" de la génération.

Le papier UniLongGen explique pourquoi cela arrive et propose une solution ingénieuse, sans avoir besoin de réentraîner l'artiste.

Voici l'explication simple, avec des analogies du quotidien :

1. Le Problème : L'Artiste qui a trop de souvenirs (et pas assez de filtre)

Habituellement, on pensait que l'artiste échouait parce qu'il avait "trop de choses à retenir" (trop de mots, trop de pixels). C'est comme si sa mémoire était pleine.

Mais les chercheurs ont découvert que ce n'est pas une question de quantité, mais de type de souvenirs.

Le texte est comme une liste de courses : si elle est longue, elle peut être un peu floue, mais elle ne gâche pas le dessin.
Les images, elles, sont comme des miroirs. Plus vous en ajoutez dans la pièce, plus ils réfléchissent la lumière.

L'analogie du "Bruit Visuel" :
Imaginez que vous essayez de peindre un portrait en regardant un seul miroir (l'image de référence). C'est facile. Maintenant, imaginez que vous mettez 20 miroirs autour de vous, tous reflétant des objets différents. Votre cerveau (l'intelligence artificielle) se concentre sur le reflet le plus brillant ou le plus proche, même si ce n'est pas le bon objet.
Dans le cas de l'IA, ces "miroirs" sont les anciennes images générées. Elles créent un bruit qui "vole" l'attention de l'IA. Au lieu de regarder l'instruction actuelle, l'IA se laisse distraire par un détail d'une image générée il y a 15 pages. Résultat : le nouveau dessin mélange des éléments de l'histoire ancienne avec la nouvelle, créant un monstre visuel.

2. La Solution : Le "Filtre Intelligent" (UniLongGen)

Au lieu de forcer l'artiste à se souvenir de tout (ce qui le rend fou), UniLonggen lui apprend à oublier activement ce qui est inutile.

C'est comme un chef de cuisine qui prépare un grand banquet.

L'approche ancienne : Le chef garde tous les ingrédients de tous les plats précédents sur le comptoir. À la fin, il y a des oignons, du chocolat, des clous et des tomates partout. Il ne sait plus quoi utiliser pour le plat actuel.
L'approche UniLongGen : Le chef a un assistant (le système de curation). Avant de commencer le nouveau plat, l'assistant regarde la recette, puis va dans le garde-manger et jette tous les ingrédients qui ne servent pas à ce plat précis. Il ne garde que les 3 ou 4 ingrédients essentiels.

Comment ça marche techniquement (en version simple) ?
Le système utilise deux "yeux" pour trier les souvenirs :

L'œil du début (pour le texte) : Il regarde les anciennes phrases pour s'assurer que l'histoire a du sens.
L'œil de la fin (pour l'image) : Il regarde les anciennes images pour s'assurer que le personnage ressemble toujours au même.

Ensuite, il applique une règle stricte : "Ne gardez que les meilleurs souvenirs, et jetez le reste." Il ne compresse pas les images (ce qui les rendrait floues), il les supprime purement et simplement de la mémoire de l'IA au moment de dessiner.

3. Les Résultats Magiques

Grâce à cette méthode, l'IA peut désormais générer plus de 40 images d'affilée sans perdre le nord.

Qualité : Les images restent nettes et belles jusqu'à la dernière page.
Cohérence : Le personnage garde son visage et son style tout au long de l'histoire.
Vitesse : C'est même plus rapide ! En enlevant le "bruit" inutile, l'IA travaille plus vite, comme un artiste qui n'a plus à trier une montagne de papiers inutiles.

En résumé

Le papier nous dit : "Pour faire de longs dessins animés avec l'IA, il ne faut pas lui donner une mémoire infinie, mais lui apprendre à faire le tri."

C'est la différence entre un bibliothécaire qui empile tous les livres sur une table (et finit par ne plus rien trouver) et un bibliothécaire qui ne sort que les 3 livres nécessaires pour le chapitre en cours. UniLongGen est ce bibliothécaire intelligent qui sauve l'histoire de l'effondrement.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : L'Effondrement de la Qualité à Long Terme

Les modèles multimodaux unifiés (UMM) promettent de générer des récits longs et entrelacés (texte et images alternés). Cependant, les systèmes actuels souffrent d'une faille critique de fiabilité : la qualité de génération s'effondre rapidement à mesure que la séquence s'allonge.

Observation clé : Contrairement à l'hypothèse classique selon laquelle ce problème est dû à une saturation de la mémoire ou au nombre total de tokens (problème de "long-context"), les auteurs démontrent que l'effondrement est piloté par le nombre d'événements visuels (images générées), et non par la longueur brute de la séquence.
Le mécanisme de défaillance : L'accumulation d'historique visuel agit comme une source de "pollution active" (active pollution). Contrairement au texte qui dilue passivement l'attention, les tokens visuels denses créent une compétition structurelle dans le mécanisme d'attention (Softmax).
- Des correspondances fortuites (outliers) entre les clés visuelles historiques et les requêtes actuelles sont amplifiées exponentiellement par le Softmax.
- Cela entraîne un "détournement d'attention" (attention hijacking), où des détails haute fréquence incorrects ou des artefacts structurels s'infiltrent dans la synthèse actuelle, détruisant la cohérence de l'identité et du style.
Le goulot d'étranglement des événements (Event Bottleneck) : La qualité se dégrade drastiquement après environ 20 à 25 images, peu importe le nombre total de tokens (même si le budget mémoire est identique).

2. Méthodologie : UniLongGen

Pour résoudre ce problème sans réentraînement du modèle, les auteurs proposent UniLongGen, une stratégie d'inférence basée sur la curation de contexte (context curation). L'idée centrale est de privilégier un conditionnement "sûr" plutôt que de retenir tout l'historique.

Principes Fondamentaux

Oubli Actif (Active Forgetting) : Au lieu de compresser l'historique (ce qui peut préserver les "compétiteurs" bruyants), UniLongGen supprime directement les tokens non pertinents du cache KV (Key-Value).
Curation par Niveau de Profondeur (Layer-Split) : L'analyse montre que les couches du transformateur ont des spécialisations fonctionnelles :
- Couches précoces : Dominées par le texte et l'ancrage sémantique (grounding).
- Couches tardives : Dominées par les latents VAE et la synthèse d'image.
- Une seule masque de pertinence global est insuffisant.

Pipeline d'Inférence (Sans entraînement)

Pour chaque nouvelle image à générer, UniLongGen exécute trois étapes :

Profilage du Contexte en Un Seul Passage (One-Pass Context Profiling) :
- Le modèle effectue un passage avant (forward pass) avec l'historique complet (KV dense) pour sonder ses propres signaux d'attention internes.
Évaluation de Pertinence à Double Profondeur (Dual-Depth Scoring) :
- Pour l'ancrage (Grounding) : À une couche précoce (ex: Layer 1), on calcule la pertinence des blocs de texte historiques par rapport aux requêtes VAE actuelles. On sélectionne les $K_{text}$ meilleurs segments textuels.
- Pour la synthèse (Synthesis) : À une couche tardive (ex: Layer 15), on calcule la pertinence des blocs d'images historiques (VAE) par rapport aux requêtes VAE actuelles. On sélectionne les $K_{img}$ meilleures images de référence (généralement $K \approx 4$ ).
- Note : L'utilisation de scores de similarité Pre-Softmax (moyenne des produits scalaires QK) est cruciale pour éviter les biais de récence inhérents aux poids d'attention post-Softmax.
Génération avec Visibilité KV Splitée :
- Pendant les étapes de génération (diffusion/flow), une politique de visibilité fixe est appliquée :
  - Les couches précoces ne voient que l'historique textuel sélectionné.
  - Les couches tardives ne voient que l'historique visuel sélectionné.
- Tous les autres tokens sont évacués du cache KV, réduisant ainsi la compétition dans le Softmax.

3. Contributions Clés

Diagnostic Mécanistique : Identification du "goulot d'étranglement des événements" et de la distinction fondamentale entre la dilution passive (texte) et la pollution active (images) dans les modèles unifiés.
Analyse de l'Attention : Démonstration que la dégradation est causée par des outliers à queue lourde (heavy-tailed outliers) dans la distribution des scores de similarité visuelle, amplifiés par le Softmax.
Stratégie de Curation : Proposition d'UniLongGen, une méthode plug-and-play qui utilise les signaux internes du modèle pour filtrer dynamiquement l'historique, éliminant le besoin de récupérateurs externes ou d'heuristiques sémantiques manuelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur le modèle unifié BAGEL (hybride AR-Diffusion) avec un benchmark de 40 images entrelacées.

Qualité et Cohérence : UniLongGen surpasse significativement les baselines (KV dense, fenêtres glissantes, sélection sémantique par oracle humain).
- Score HPS v3 : Passe de ~3.17 (KV dense) à 7.57 avec UniLongGen.
- Cohérence d'Identité (DINOv2) : Passe de 0.316 à 0.427.
- Cohérence de Style : Amélioration notable, évitant la dérive (drift) visuelle.
Comparaison avec les Oracles : De manière surprenante, la sélection basée sur l'attention interne du modèle (UniLongGen) est supérieure à une sélection basée sur un "oracle sémantique" humain. Cela suggère que ce qui est sémantiquement pertinent pour un humain n'est pas toujours ce qui est nécessaire pour une synthèse stable par le modèle.
Efficacité : En évitant les tokens non pertinents, UniLongGen réduit considérablement la taille du cache KV et le temps d'inférence.
- Gain de vitesse : Jusqu'à 11x plus rapide pour les contextes longs (ex: 350k tokens) par rapport au KV dense, car le temps de calcul devient insensible à la longueur brute de l'historique.
Ablations :
- La sélection au niveau de l'événement (image entière) est bien supérieure à la sélection au niveau du token (qui fragmente les indices visuels critiques).
- La suppression directe (Drop) est supérieure à la compression (Pooling/Interpolation), car la compression conserve les artefacts bruyants.

5. Signification et Impact

Ce travail remet en question la vision traditionnelle de la gestion de contexte long dans la génération multimodale. Il démontre que pour les modèles unifiés, retenir tout l'historique est nuisible.

Changement de paradigme : Le passage d'une logique de "mémoire totale" à une logique de "curation active" est essentiel pour la stabilité à long terme.
Généralité : Bien que testé sur un modèle hybride, le principe de l'alignement avec les signaux d'attention internes du modèle (plutôt que des heuristiques externes) offre une voie prometteuse pour stabiliser la génération de récits visuels longs dans divers architectures (AR pur, diffusion, etc.).
Application : Cette méthode permet la création de bandes dessinées, de storyboards longs et de designs visuels itératifs avec une fidélité et une cohérence de personnage maintenues sur des dizaines d'images, ouvrant la voie à des applications narratives complexes.

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

1. Le Problème : L'Artiste qui a trop de souvenirs (et pas assez de filtre)

2. La Solution : Le "Filtre Intelligent" (UniLongGen)

3. Les Résultats Magiques

En résumé

1. Le Problème : L'Effondrement de la Qualité à Long Terme

2. Méthodologie : UniLongGen

Principes Fondamentaux

Pipeline d'Inférence (Sans entraînement)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes