Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme des "Super-Héros" Multimodaux

Imaginez que vous avez créé un super-héros nommé MLLM (Modèle de Langage Multimodal Géant). Ce héros est formé de deux parties distinctes :

Un cerveau de texte (très fort en logique, en mathématiques et en raisonnement).
Des yeux d'aigle (très forts pour voir, reconnaître des objets et lire des textes sur des images).

L'idée était que ce héros pourrait combiner ses deux pouvoirs pour résoudre n'importe quel problème complexe. Par exemple : "Regarde cette image de cartes à jouer, lis les chiffres, et calcule la somme."

Mais les chercheurs de l'Université du Pays Basque ont découvert quelque chose de surprenant : ce héros est un peu comme un chef d'orchestre qui a perdu ses baguettes. Même si chaque musicien (les yeux et le cerveau) est excellent individuellement, ils ne parviennent pas à jouer ensemble harmonieusement.

🎭 Les Trois Épreuves (Les Expériences)

Pour tester ce héros, les chercheurs ont créé trois épreuves simples, que n'importe quel humain ferait sans réfléchir :

Le Défi du Texte Caché : On montre au héros une image contenant un problème de mathématiques écrit (comme "7 + 5 = ?").
- Le pouvoir requis : Lire l'image (OCR) + Faire le calcul.
Le Défi du Comptage : On montre une image remplie d'oranges.
- Le pouvoir requis : Repérer les oranges (Vision) + Les compter (Logique).
Le Défi du Poker : On montre une image de quatre cartes.
- Le pouvoir requis : Reconnaître les cartes (Vision) + Appliquer des règles de calcul complexes (Logique).

📉 Le Problème : Le "Fossé de la Composition"

Les chercheurs ont comparé deux façons de jouer :

La méthode directe : On demande au héros : "Résous ça !" (Il utilise ses yeux et son cerveau en même temps, mais en mode automatique).
La méthode en cascade (le "tuyau") : On force le héros à faire les choses étape par étape.
1. Étape 1 : "Regarde l'image et dis-moi ce que tu vois." (Il utilise juste ses yeux).
2. Étape 2 : "Maintenant, prends ce que tu as vu et fais le calcul." (Il utilise juste son cerveau).

Le résultat est sans appel :
Dans la méthode "tuyau" (étape par étape), le héros réussit très bien. Mais dans la méthode "directe", il échoue souvent, même pour des tâches simples.

C'est comme si vous demandiez à un cuisinier de faire un gâteau.

Si vous lui dites : "Mélange la farine, puis les œufs, puis le sucre", il réussit.
Si vous lui dites juste : "Fais un gâteau !" sans lui donner les étapes, il risque de mettre le sucre avant la farine, ou d'oublier les œufs, parce qu'il ne sait pas combiner les gestes correctement.

Ce manque de coordination s'appelle le "fossé de la composition des compétences". Le modèle possède les compétences, mais il ne sait pas les assembler de manière optimale.

🛠️ Les Tentatives de Réparation

Les chercheurs ont essayé deux remèdes pour aider le héros à mieux se coordonner :

Le "Guide de Pensée" (Chain-of-Thought) :
C'est comme donner un mode d'emploi au héros : "D'abord, lis l'image. Ensuite, écris ce que tu as lu. Enfin, fais le calcul."
- Résultat : Ça aide un peu, le héros fait moins d'erreurs. Mais c'est fastidieux : il faut inventer un nouveau mode d'emploi pour chaque nouveau jeu. Ce n'est pas une solution magique universelle.
L'Entraînement Spécial (Fine-tuning) :
On a pris le héros et on l'a fait réviser spécifiquement pour apprendre à combiner les étapes.
- Résultat : Ça s'améliore, surtout si on l'entraîne sur le même type de problème qu'on lui pose ensuite. Mais dès qu'on change un peu le jeu, le fossé réapparaît. Le héros n'a pas vraiment appris à penser en combinant ses pouvoirs, il a juste appris à répéter des exercices.

💡 La Conclusion en une phrase

Même les modèles d'intelligence artificielle les plus avancés d'aujourd'hui ont du mal à combiner naturellement ce qu'ils voient et ce qu'ils pensent. Ils sont comme des athlètes qui sont excellents en course et en saut individuellement, mais qui trébuchent dès qu'on leur demande de faire un saut en courant.

Il reste encore beaucoup de travail à faire pour que ces intelligences artificielles deviennent de véritables "super-héros" capables de penser de manière fluide et intégrée, comme nous le faisons nous-mêmes.

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

🧠 Le Dilemme des "Super-Héros" Multimodaux

🎭 Les Trois Épreuves (Les Expériences)

📉 Le Problème : Le "Fossé de la Composition"

🛠️ Les Tentatives de Réparation

💡 La Conclusion en une phrase

1. Problématique et Contexte

2. Méthodologie

A. Définition des Compétences et des Tâches

B. Protocole d'Évaluation : Le "Gap de Composition"

C. Modèles et Données

3. Résultats Clés

A. Existence d'un Gap Significatif

B. Analyse des Causes

4. Stratégies d'Atténuation

5. Contributions et Signification

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

🧠 Le Dilemme des "Super-Héros" Multimodaux

🎭 Les Trois Épreuves (Les Expériences)

📉 Le Problème : Le "Fossé de la Composition"

🛠️ Les Tentatives de Réparation

💡 La Conclusion en une phrase

1. Problématique et Contexte

2. Méthodologie

A. Définition des Compétences et des Tâches

B. Protocole d'Évaluation : Le "Gap de Composition"

C. Modèles et Données

3. Résultats Clés

A. Existence d'un Gap Significatif

B. Analyse des Causes

4. Stratégies d'Atténuation

5. Contributions et Signification

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance