Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Cette étude révèle que les modèles de langage multimodaux actuels éprouvent des difficultés significatives à composer des compétences entre différentes modalités, et que ni le prompting par chaîne de pensée ni un affinage spécifique ne parviennent à combler entièrement cet écart.

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune

Publié Tue, 10 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme des "Super-Héros" Multimodaux

Imaginez que vous avez créé un super-héros nommé MLLM (Modèle de Langage Multimodal Géant). Ce héros est formé de deux parties distinctes :

  1. Un cerveau de texte (très fort en logique, en mathématiques et en raisonnement).
  2. Des yeux d'aigle (très forts pour voir, reconnaître des objets et lire des textes sur des images).

L'idée était que ce héros pourrait combiner ses deux pouvoirs pour résoudre n'importe quel problème complexe. Par exemple : "Regarde cette image de cartes à jouer, lis les chiffres, et calcule la somme."

Mais les chercheurs de l'Université du Pays Basque ont découvert quelque chose de surprenant : ce héros est un peu comme un chef d'orchestre qui a perdu ses baguettes. Même si chaque musicien (les yeux et le cerveau) est excellent individuellement, ils ne parviennent pas à jouer ensemble harmonieusement.

🎭 Les Trois Épreuves (Les Expériences)

Pour tester ce héros, les chercheurs ont créé trois épreuves simples, que n'importe quel humain ferait sans réfléchir :

  1. Le Défi du Texte Caché : On montre au héros une image contenant un problème de mathématiques écrit (comme "7 + 5 = ?").
    • Le pouvoir requis : Lire l'image (OCR) + Faire le calcul.
  2. Le Défi du Comptage : On montre une image remplie d'oranges.
    • Le pouvoir requis : Repérer les oranges (Vision) + Les compter (Logique).
  3. Le Défi du Poker : On montre une image de quatre cartes.
    • Le pouvoir requis : Reconnaître les cartes (Vision) + Appliquer des règles de calcul complexes (Logique).

📉 Le Problème : Le "Fossé de la Composition"

Les chercheurs ont comparé deux façons de jouer :

  • La méthode directe : On demande au héros : "Résous ça !" (Il utilise ses yeux et son cerveau en même temps, mais en mode automatique).
  • La méthode en cascade (le "tuyau") : On force le héros à faire les choses étape par étape.
    1. Étape 1 : "Regarde l'image et dis-moi ce que tu vois." (Il utilise juste ses yeux).
    2. Étape 2 : "Maintenant, prends ce que tu as vu et fais le calcul." (Il utilise juste son cerveau).

Le résultat est sans appel :
Dans la méthode "tuyau" (étape par étape), le héros réussit très bien. Mais dans la méthode "directe", il échoue souvent, même pour des tâches simples.

C'est comme si vous demandiez à un cuisinier de faire un gâteau.

  • Si vous lui dites : "Mélange la farine, puis les œufs, puis le sucre", il réussit.
  • Si vous lui dites juste : "Fais un gâteau !" sans lui donner les étapes, il risque de mettre le sucre avant la farine, ou d'oublier les œufs, parce qu'il ne sait pas combiner les gestes correctement.

Ce manque de coordination s'appelle le "fossé de la composition des compétences". Le modèle possède les compétences, mais il ne sait pas les assembler de manière optimale.

🛠️ Les Tentatives de Réparation

Les chercheurs ont essayé deux remèdes pour aider le héros à mieux se coordonner :

  1. Le "Guide de Pensée" (Chain-of-Thought) :
    C'est comme donner un mode d'emploi au héros : "D'abord, lis l'image. Ensuite, écris ce que tu as lu. Enfin, fais le calcul."

    • Résultat : Ça aide un peu, le héros fait moins d'erreurs. Mais c'est fastidieux : il faut inventer un nouveau mode d'emploi pour chaque nouveau jeu. Ce n'est pas une solution magique universelle.
  2. L'Entraînement Spécial (Fine-tuning) :
    On a pris le héros et on l'a fait réviser spécifiquement pour apprendre à combiner les étapes.

    • Résultat : Ça s'améliore, surtout si on l'entraîne sur le même type de problème qu'on lui pose ensuite. Mais dès qu'on change un peu le jeu, le fossé réapparaît. Le héros n'a pas vraiment appris à penser en combinant ses pouvoirs, il a juste appris à répéter des exercices.

💡 La Conclusion en une phrase

Même les modèles d'intelligence artificielle les plus avancés d'aujourd'hui ont du mal à combiner naturellement ce qu'ils voient et ce qu'ils pensent. Ils sont comme des athlètes qui sont excellents en course et en saut individuellement, mais qui trébuchent dès qu'on leur demande de faire un saut en courant.

Il reste encore beaucoup de travail à faire pour que ces intelligences artificielles deviennent de véritables "super-héros" capables de penser de manière fluide et intégrée, comme nous le faisons nous-mêmes.