UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous parlez à un assistant très intelligent, mais que vous lui donnez des instructions un peu chaotiques : vous lui montrez une photo, lui faites écouter un enregistrement audio, lui donnez un document PDF et un bout de code, tout en lui parlant en même temps. Et vous attendez qu'il vous réponde avec un mélange tout aussi complexe : un texte, une nouvelle vidéo, un schéma 3D et une chanson.

C'est exactement le défi que pose le papier UNIM. Voici une explication simple, imagée et en français de ce travail révolutionnaire.

1. Le Problème : Les assistants actuels sont comme des musiciens qui ne jouent que du piano

Aujourd'hui, les intelligences artificielles (les MLLM) sont devenues très douces pour comprendre le texte et les images. C'est comme si elles étaient devenues des virtuoses du piano. Mais dans la vraie vie, la vie n'est pas un solo de piano ! C'est un orchestre complet.

Parfois, un architecte envoie un croquis, un audio, un plan 3D et un code informatique en même temps. Les modèles actuels sont souvent perdus : ils ne savent pas bien mélanger tous ces éléments, ou ils oublient de répondre avec le bon format (par exemple, ils répondent avec du texte alors qu'on leur demandait une vidéo). Ils sont comme un chef d'orchestre qui ne connaît que la partition de piano et qui panique quand les violons et les cuivres entrent en jeu.

2. La Solution : Le "UNIM" (Le Grand Buffet Multimodal)

Les chercheurs ont créé UNIM (Unified Any-to-Any Interleaved Multimodal Benchmark).

L'analogie du buffet : Imaginez un buffet géant où vous pouvez prendre n'importe quel aliment (texte, image, son, vidéo, code, 3D) dans n'importe quel ordre, et le mélanger sur votre assiette.
Le défi : La plupart des robots ne savent manger que des sandwichs (texte + image). UNIM est un buffet où l'on vous demande de préparer un plat complexe avec des ingrédients très différents, mélangés de manière aléatoire.
La taille : Ils ont créé 31 000 de ces "plats" (des exemples de questions et réponses) couvrant 30 domaines différents (de la médecine à l'architecture, en passant par la musique). C'est la première fois qu'on teste les IA sur une telle variété de mélanges "Any-to-Any" (n'importe quoi vers n'importe quoi).

3. Le Juge : Le "UNIM Evaluation Suite" (Le Critique Culinaire)

Comment savoir si un robot a bien cuisiné ce plat complexe ? Les anciennes méthodes de notation (comme compter le nombre de mots justes) ne suffisent pas.

Les auteurs ont créé un nouveau système de notation en trois dimensions :

Le Goût (Sémantique) : Est-ce que le robot a compris ce qu'on lui demandait ? (Si on demande un plan de maison, est-ce qu'il ne donne pas une recette de gâteau ?)
La Présentation (Structure) : Est-ce qu'il a respecté la consigne ? Si on lui a demandé "donne-moi 3 images et 1 audio", est-ce qu'il a bien donné exactement ça, ni plus ni moins ?
L'Harmonie (Cohérence) : Est-ce que tout s'enchaîne bien ? Si le texte dit "regardez cette vidéo" et que la vidéo est là, c'est bien. Mais si le texte parle de pluie et que la vidéo montre un désert ensoleillé, c'est une catastrophe. C'est comme si un chanteur chantait une chanson triste sur une musique joyeuse.

4. Le Héros : UNIMA (Le Chef d'Orchestre Agentic)

Pour tester ce nouveau buffet, les chercheurs ont construit un nouveau robot appelé UNIMA.

L'analogie du chef d'orchestre : Contrairement aux autres robots qui essaient de tout faire d'un coup (et qui échouent souvent), UNIMA agit comme un chef d'orchestre méthodique.
Son secret : Il ne se lance pas aveuglément. Il suit une méthode en plusieurs étapes :
1. Il écoute et note : Il transforme chaque ingrédient (image, son, code) en une "note" textuelle précise.
2. Il réfléchit (Traceable Reasoning) : Il écrit un plan de bataille. "D'abord, je vais analyser le code, ensuite je vais regarder la vidéo, puis je vais générer l'image". Il vérifie ses propres étapes comme un détective.
3. Il corrige : S'il se rend compte qu'il a oublié un ingrédient ou qu'il a mal compris, il revient en arrière et se corrige avant de servir le plat final.
4. Il sert : Il génère la réponse finale, mélangeant parfaitement les différents médias.

5. Les Résultats : Qui gagne ?

Les tests ont été sans pitié.

Les anciens modèles (AnyGPT, NExT-GPT, etc.) : Ils ont eu de très mauvaises notes. Ils étaient souvent incapables de suivre les instructions complexes. C'était comme demander à un pianiste de diriger un orchestre de 50 musiciens : il s'est perdu, a oublié des instruments, et a joué faux.
UNIMA : Il a largement gagné. Grâce à sa méthode de "réflexion étape par étape" et de vérification, il a réussi à comprendre les mélanges complexes et à produire des réponses structurées et cohérentes.

En résumé

Ce papier nous dit que pour que l'IA devienne vraiment utile dans la vie réelle (comme un assistant personnel capable de gérer un projet d'ingénierie complet), elle ne doit plus seulement "lire" ou "voir", mais elle doit savoir mélanger n'importe quel type d'information et répondre avec n'importe quel type de média, le tout de manière cohérente.

UNIM est la nouvelle épreuve de conduite pour les voitures autonomes de l'IA, et UNIMA est le premier conducteur qui a réussi à traverser le brouillard sans accident !

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : UNIM - Un Benchmark Unifié pour l'Apprentissage Multimodal Intercalé "Tout-à-Tout"

1. Problématique

Les modèles de langage multimodaux (MLLM) ont considérablement progressé, passant de la simple compréhension visuelle-textuelle à des cadres unifiés de compréhension et de génération. Cependant, les approches actuelles présentent des limites majeures face aux interactions réelles :

Limitation des modalités : La plupart des benchmarks existants se concentrent uniquement sur l'intercalage texte-image, ignorant la diversité des modalités du monde réel (audio, vidéo, documents, code, 3D).
Complexité de l'intercalage : Les scénarios réels impliquent des séquences d'entrées et de sorties arbitrairement mélangées (intercalées) et non structurées de manière simple.
Évaluation inadéquate : Les métriques traditionnelles (comme la précision) sont insuffisantes pour évaluer la cohérence structurelle, la qualité de génération et la cohérence intercalée dans des tâches complexes.
Manque de benchmark unifié : Il n'existait pas de cadre capable d'évaluer simultanément la compréhension et la génération pour n'importe quelle combinaison de modalités ("Any-to-Any").

2. Méthodologie

Les auteurs proposent une approche complète comprenant un nouveau benchmark, une suite d'évaluation et un modèle de référence.

A. Le Benchmark UNIM
UNIM est le premier jeu de données unifié pour l'apprentissage multimodal intercalé "Tout-à-Tout".

Données : 31 026 instances de haute qualité couvrant 30 domaines (sciences naturelles, sciences sociales, domaines généraux) et 7 modalités : texte, image, audio, vidéo, document, code et 3D.
Structure : Les entrées et les sorties sont des séquences intercalées où les éléments non-textuels sont représentés par des balises de remplacement (ex: <image1>, <code2>).
Difficulté progressive : Les instances sont classées en trois niveaux (Facile, Moyen, Difficile) basés sur la complexité de la compréhension, de la génération, du raisonnement et de la tâche.
Capacités : Chaque instance exige des compétences multiples et imbriquées (raisonnement spatial, temporel, planification, génération créative, etc.).

B. La Suite d'Évaluation UNIM (UNIM EVALUATION SUITE)
Pour pallier les limites des métriques classiques, les auteurs proposent une évaluation multidimensionnelle :

Correction Sémantique & Qualité de Génération (SC & GQ) :
- SC : Mesure l'alignement sémantique avec la vérité terrain (convertie en légendes textuelles pour comparaison).
- GQ : Évalue la qualité perceptuelle et structurelle (ex: NIQE pour les images, analyse de signal pour l'audio, qualité du code).
- SQCS : Un score couplé pondéré combinant SC et GQ.
Intégrité de la Structure de Réponse (Response Structure Integrity) :
- StS (Strict Structure Score) : Vérifie la correspondance exacte des types et du nombre de modalités générées par rapport à la vérité terrain.
- LeS (Lenient Structure Score) : Évalue la couverture des types de modalités.
Cohérence Intercalée (Interleaved Coherence) :
- HC (Holistic Coherence) : Évalue la cohérence logique et sémantique entre les différentes modalités.
- SH (Stylistic Harmony) : Évalue l'harmonie du ton et du style à travers les modalités.
- ICS : Un score composite combinant HC et SH.
Taux de Support (Supporting Rate - $\tau$ ) : Un facteur correctif qui distingue la performance absolue (sur les tâches supportées) de la performance relative (sur l'ensemble du benchmark), tenant compte du fait que certains modèles ne supportent pas toutes les modalités.

C. Le Modèle de Référence : UNIMA
Pour établir une baseline, les auteurs introduisent UNIMA (Unified Any-to-Any Interleaved Multimodal Agentic model).

Architecture Agentique : UNIMA ne génère pas directement, mais planifie via un module de Raisonnement par Preuve Traçable (Traceable Evidence Reasoning - TER).
Fonctionnement :
1. Réception : Conversion des entrées multimodales en légendes denses conditionnées par la tâche (TCDC).
2. Raisonnement : Génération d'une chaîne de preuves structurée, vérification des faits (via un interpréteur de code si nécessaire) et planification de la sortie.
3. Vérification : Un module "Checker/Judger" détecte les erreurs, remonte la chaîne de raisonnement et corrige les étapes avant la génération finale.
4. Génération : Production de la séquence intercalée finale en utilisant des outils spécialisés (ex: Sora pour la vidéo, GPT-Image pour l'image, etc.).

3. Résultats Principaux

Les expériences menées sur UNIM révèlent des défis significatifs pour les modèles actuels :

Performance des modèles existants : Les MLLMs de pointe (AnyGPT, NExT-GPT, MIO) obtiennent des scores très faibles sur UNIM (souvent < 20% en SQCS absolu et < 5% en intégrité structurelle). Ils échouent principalement à maintenir la structure intercalée et à gérer la diversité des modalités.
Supériorité de UNIMA : Le modèle UNIMA surpasse largement les bases de référence, obtenant des scores SQCS d'environ 60% et des scores ICS proches de 70%. Il démontre une meilleure capacité à respecter les contraintes structurelles (StS/LeS 2 à 40 fois supérieurs aux autres modèles).
Analyse par domaine et difficulté :
- Les modèles performent mieux dans les domaines sociaux (concepts communs) que dans les sciences naturelles (terminologie précise).
- La performance chute drastiquement avec l'augmentation de la difficulté pour les modèles de base, tandis que UNIMA maintient une certaine robustesse sémantique même si l'intégrité structurelle diminue légèrement.
Validité des métriques : Une forte corrélation de Pearson (r > 0.96) a été observée entre les scores automatiques (SQCS, ICS) et les évaluations humaines, validant la suite d'évaluation.

4. Contributions Clés

UNIM Benchmark : Le premier dataset unifié "Any-to-Any" couvrant 7 modalités et 30 domaines, avec des tâches intercalées complexes.
Suite d'Évaluation Principée : Une méthodologie d'évaluation nouvelle qui ne se limite pas à la sémantique, mais intègre l'intégrité structurelle et la cohérence intercalée, cruciales pour les applications réelles.
Modèle UNIMA : Une architecture agentique avec raisonnement traçable et vérification itérative, servant de référence solide pour les futures recherches.
Analyse des Limites : Une démonstration claire que l'unification simple des modalités n'est pas suffisante ; une gestion explicite de la structure et du raisonnement est nécessaire pour l'intelligence multimodale générale.

5. Signification et Impact

Ce travail marque une étape cruciale dans l'évolution des MLLMs. Il déplace le paradigme de la simple compréhension "texte-image" vers une intelligence multimodale véritablement fluide capable de traiter des flux d'informations hétérogènes et intercalés, comme dans un assistant IA réel ou un copilote de programmation.

Pour la recherche : UNIM fournit un terrain d'essai rigoureux pour évaluer les progrès vers une intelligence artificielle générale multimodale.
Pour l'industrie : Il met en lumière les lacunes des modèles actuels dans des scénarios pratiques complexes et propose une voie (via l'approche agentique et le raisonnement traçable) pour y remédier.
Futur : Le papier ouvre la voie vers des modèles de base unifiés "end-to-end" capables de gérer nativement des combinaisons arbitraires de modalités sans dépendre d'outils externes complexes.

En résumé, UNIM établit un nouveau standard pour l'évaluation et le développement de l'intelligence multimodale, soulignant que la prochaine génération de modèles devra maîtriser non seulement le contenu, mais aussi la structure complexe et intercalée des interactions humaines.

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

1. Le Problème : Les assistants actuels sont comme des musiciens qui ne jouent que du piano

2. La Solution : Le "UNIM" (Le Grand Buffet Multimodal)

3. Le Juge : Le "UNIM Evaluation Suite" (Le Critique Culinaire)

4. Le Héros : UNIMA (Le Chef d'Orchestre Agentic)

5. Les Résultats : Qui gagne ?

En résumé

Résumé Technique : UNIM - Un Benchmark Unifié pour l'Apprentissage Multimodal Intercalé "Tout-à-Tout"

1. Problématique

2. Méthodologie

3. Résultats Principaux

4. Contributions Clés

5. Signification et Impact

Articles similaires

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search