Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un artiste très talentueux, capable de deux choses : raconter des histoires (écrire du texte) et dessiner des images (créer des visuels). Jusqu'à présent, cet artiste était un peu comme un magicien qui ne pouvait faire qu'un tour à la fois : soit il écrivait une histoire, soit il dessinait un tableau, mais jamais les deux mélangés ensemble dans une même conversation fluide.

C'est le problème que résout cette nouvelle recherche. Voici une explication simple de leur méthode, imaginée comme une formation pour ce magicien.

1. Le Problème : L'Artiste qui a peur de changer d'outil

Les modèles d'intelligence artificielle actuels (les "modèles unifiés") sont excellents pour comprendre des images ou en générer, mais ils ont du mal à alterner entre les deux.

Analogie : C'est comme si vous demandiez à un cuisinier de préparer un plat en décrivant chaque étape, mais qu'il ne pouvait pas sortir les ingrédients au bon moment. Il vous donnerait tout le texte d'abord, puis tout l'assortiment d'ingrédients après, au lieu de dire : "Je coupe l'oignon (image), puis je le fait frire (image), pendant que je vous explique la recette (texte)."

Les chercheurs veulent que l'IA puisse faire du "storytelling multimodal" : un mélange naturel de texte et d'images, comme dans un livre de contes moderne où l'histoire avance pas à pas avec des illustrations qui apparaissent exactement là où il faut.

2. La Solution : Une formation en deux étapes

Pour apprendre à cet artiste à jongler sans tomber, les chercheurs ont inventé une méthode en deux temps, sans avoir besoin de milliers de livres illustrés parfaits (qui sont rares et chers).

Étape 1 : L'Échauffement (Le "Warm-up")

Avant de lancer le vrai entraînement, on donne à l'artiste un petit carnet de croquis avec quelques exemples de textes et d'images mélangés, ainsi que quelques exercices de base pour ne pas qu'il oublie ce qu'il savait déjà faire.

L'analogie : C'est comme un réchauffement avant un match de football. On ne demande pas au joueur de courir un marathon tout de suite. On lui fait faire quelques passes simples avec le ballon et ses pieds, pour qu'il se souvienne de ses réflexes, tout en l'habituant doucement à l'idée de jouer avec les deux pieds. Cela "débloque" la capacité cachée de l'IA à mélanger les modes sans la faire oublier ses compétences initiales.

Étape 2 : L'Entraînement par Récompense (Le "GRPO")

C'est ici que la magie opère. Au lieu de simplement montrer des exemples, on utilise une technique de renforcement, un peu comme éduquer un chien intelligent.

Imaginez que l'IA doit raconter une histoire. Au lieu de lui donner une seule réponse, on lui demande de générer plusieurs versions de la même histoire en même temps (par exemple, 4 versions différentes).

Le Juge (La Récompense Hybride) : Un système de notation regarde ces 4 versions et donne des points pour trois choses :
1. La qualité du texte : Est-ce que l'histoire a du sens ?
2. La qualité de l'image : Est-ce que le dessin correspond à ce qui est écrit ?
3. Le format : Est-ce que l'IA a bien alterné texte et image au bon moment (comme un chef d'orchestre) ?
La Comparaison : L'IA regarde les 4 versions. Si la version A est meilleure que la version B, elle reçoit une "récompense relative". Elle apprend ainsi : "Ah, quand j'ai mis une image ici, c'était mieux que quand je l'ai mise plus tard."
Le Guide Pas à Pas (Récompense de Processus) : C'est le détail crucial. Au lieu de noter seulement la fin de l'histoire, on donne des points à chaque étape (après chaque phrase, après chaque image).
- Analogie : C'est la différence entre un prof qui ne vous donne une note qu'à la fin de l'année, et un coach qui vous dit à chaque mouvement : "Bravo pour ce saut, mais attention à ton atterrissage". Cela aide l'IA à corriger ses erreurs en cours de route, ce qui est vital pour des tâches complexes.

3. Le Résultat : Un Conte de Fées Interactif

Grâce à cette méthode, l'IA devient capable de générer des séquences où le texte et l'image se répondent parfaitement.

Exemple concret : Si vous demandez "Racontez l'histoire d'un chien qui apprend à nager", l'IA ne va pas écrire tout le texte puis générer une image. Elle va dire : "Le chien arrive au bord de l'eau" (texte), puis générer une image du chien, puis dire "Il hésite un instant" (texte), puis générer une image de son visage inquiet, et ainsi de suite.

En résumé

Les chercheurs ont pris un modèle d'IA qui savait déjà faire beaucoup de choses, mais qui était timide pour mélanger texte et image.

Ils l'ont échauffé avec un peu de données mélangées pour le mettre en confiance.
Ils l'ont entraîné en le faisant comparer ses propres créations et en le félicitant (ou le corrigeant) à chaque étape précise de sa création.

Le résultat ? Une IA qui peut enfin raconter des histoires visuelles fluides, comme un livre animé intelligent, sans avoir besoin de millions d'exemples parfaits pour apprendre. C'est un pas de géant vers des assistants IA qui comprennent vraiment le monde, image par image et mot par mot.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles unifiés vision-langage (Unified Vision-Language Models) ont fait des progrès significatifs dans la compréhension et la génération multimodales séparées. Cependant, ils échouent souvent à produire des sorties multimodales entrelacées (interleaved outputs), c'est-à-dire des séquences où le texte et les images s'alternent dynamiquement au sein d'un même flux de génération (par exemple, pour la narration visuelle ou le raisonnement étape par étape).

Les limitations actuelles proviennent de deux facteurs principaux :

Manque de données : L'absence de grands ensembles de données de haute qualité supervisant spécifiquement la transition fine entre les modalités.
Contrôle de la modalité : Les modèles existants tendent à générer soit du texte, soit des images, mais peinent à gérer les transitions fluides et contextuelles entre les deux sans mécanismes de contrôle explicites.

L'objectif de cet article est de débloquer cette capacité de génération entrelacée dans des modèles unifiés existants, sans dépendre de vastes ensembles de données d'entraînement multimodales entrelacées.

2. Méthodologie

L'approche proposée repose sur une stratégie de post-entraînement en deux étapes, combinant un « réchauffement » (warm-up) et une optimisation par renforcement basée sur l'algorithme GRPO (Group Relative Policy Optimization).

A. Phase de Réchauffement (Warm-up Stage)

Pour activer la capacité de génération entrelacée sans oublier les compétences pré-entraînées (catastrophic forgetting), les auteurs proposent une phase de réchauffement hybride :

Données : Utilisation d'un petit ensemble de données entrelacées (textes et images) curées (issues d'ActivityNet, GenHowTo, OpenStory++), mélangé à des données de compréhension multimodale et de génération texte-vers-image.
Objectif : Exposer le modèle aux motifs de génération entrelacée tout en préservant ses capacités de base en compréhension et génération unimodale.

B. Optimisation de Politique Unifiée (Unified Policy Optimization)

Une fois le modèle réchauffé, une phase d'optimisation par renforcement est appliquée en étendant le GRPO au contexte multimodal.

Trajectoire de Décodage Unique : Contrairement aux approches précédentes qui traitent texte et image séparément, ce cadre modélise la génération multimodale comme un processus de décision séquentiel unique. Le modèle génère une séquence $Y$ contenant à la fois des tokens textuels et des tokens visuels (décodeurs d'images tokenisés).
Fonction de Récompense Hybride : Pour guider l'apprentissage, une récompense composite est conçue, composée de trois éléments :
1. Récompense Textuelle ( $r_t$ ) : Évalue la pertinence et la cohérence du texte généré par rapport à l'invite.
2. Récompense Visuelle et Multimodale ( $r_v$ ) : Évalue la qualité de l'image et son alignement sémantique avec le texte et le contexte (utilisant ImageReward).
3. Récompense de Format ( $r_f$ ) : Pénalise les violations de la structure attendue (utilisation de tokens spéciaux comme <vis> et </vis> pour séparer les modalités).
Récompenses de Niveau Processus (Process-level Rewards) : Au lieu d'une seule récompense à la fin de la séquence, des récompenses intermédiaires sont attribuées à la fin de chaque étape de modalité. Cela fournit un feedback granulaire et améliore l'efficacité de l'apprentissage pour des tâches complexes.

3. Contributions Clés

Stratégie de Réchauffement Économe en Données : Démontre qu'une petite quantité de données entrelacées curées suffit à débloquer les capacités latentes de génération entrelacée d'un modèle unifié pré-entraîné.
Cadre GRPO Unifié : Extension de l'algorithme GRPO (initialement conçu pour le texte) à la génération multimodale, permettant des transitions fluides entre les modalités au sein d'une seule trajectoire de décodage.
Signal de Récompense Hybride et Processuel : Conception d'un système de récompense multi-dimensionnel (texte, image, format) couplé à un feedback étape par étape, essentiel pour la cohérence des séquences complexes.
Validation Expérimentale : Preuve de concept sur deux benchmarks dédiés, démontrant que cette méthode surpasse les modèles unifiés existants sans sacrifier leurs capacités générales.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks majeurs : MMIE et InterleavedBench.

Performance sur MMIE : La méthode proposée atteint un score moyen de 59,50 %, surpassant significativement les modèles de l'état de l'art comme Anole (55,22 %) et GILL (51,58 %). L'amélioration est particulièrement notable sur les tâches d'analyse situationnelle et de narration visuelle.
Performance sur InterleavedBench : Avec un score moyen de 3,13, la méthode dépasse les modèles existants, montrant une meilleure qualité textuelle, une cohérence visuelle supérieure et une meilleure aide globale.
Études d'Abalation :
- La phase de réchauffement est cruciale : sans elle, les modèles ne peuvent pas générer de sorties entrelacées valides.
- L'ajout progressif des récompenses (Format $\to$ Texte $\to$ Visuel $\to$ Processus) améliore systématiquement les performances.
- L'utilisation de la pénalité KL (KL-divergence) stabilise l'optimisation et empêche le modèle de dériver trop loin de sa politique initiale.
Préservation des Capacités : Les tests sur des tâches de compréhension visuelle et de génération texte-vers-image standards montrent que la méthode ne dégrade pas les compétences existantes du modèle (pas d'oubli catastrophique).

5. Signification et Conclusion

Cet article propose une avancée majeure pour les systèmes d'IA multimodaux. En démontrant qu'il est possible d'entraîner des modèles à générer des séquences complexes entrelacées (texte-image-texte...) avec peu de données d'entraînement spécifiques, les auteurs ouvrent la voie à des systèmes d'IA plus polyvalents capables de :

Raconter des histoires visuelles cohérentes.
Fournir des explications étape par étape avec des illustrations dynamiques.
Réaliser un raisonnement multimodal fin et contextuel.

La méthode surmonte le goulot d'étranglement lié au manque de données d'entraînement massives et entrelacées, en utilisant une optimisation de politique intelligente (GRPO) et des récompenses hybrides pour guider le modèle vers une génération naturelle et structurée. Cela représente une étape importante vers des agents IA capables d'interagir de manière fluide et créative avec le monde visuel et textuel.