MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Ce papier présente MM-CondChain, un nouveau benchmark vérifiable programmatically conçu pour évaluer la capacité des modèles de langage multimodaux à effectuer un raisonnement compositionnel profond et enchaîné basé sur des preuves visuelles, révélant ainsi des lacunes significatives des modèles actuels face à cette complexité.

Haozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

Publié 2026-03-13
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Les IA sont de bonnes "lectrices", mais de mauvaises "détectives"

Imaginez que vous donnez à un robot (une Intelligence Artificielle) une photo et une liste de règles très précises pour accomplir une tâche.

  • L'ancien test : On demandait au robot : "Est-ce qu'il y a un chien rouge à gauche ?" C'est simple, c'est une seule question.
  • Le nouveau défi (MM-CondChain) : On donne au robot une instruction du style : "Si tu vois un chien rouge ET qu'il porte un chapeau, alors regarde la fenêtre. Si la fenêtre est ouverte, va dehors. Mais si le chien porte un chapeau BLEU, alors reste assis et réponds à une autre question."

Le problème, c'est que les IA actuelles sont très doues pour répondre à la première question simple, mais elles se perdent dès qu'il faut enchaîner plusieurs conditions logiques complexes basées sur ce qu'elles voient. Elles ont tendance à dire "Oui, continue !" même quand la condition n'est pas remplie, comme un élève qui devine la réponse au lieu de vérifier les faits.

🛠️ La Solution : Le "Chef d'Orchestre" et le "Code Secret"

Pour tester vraiment ces IA, les chercheurs ont créé un nouveau jeu appelé MM-CondChain. Mais créer ce jeu est difficile : si on demande à une IA de créer les questions, elle risque de se tromper elle-même ou de créer des règles contradictoires.

Alors, ils ont inventé une méthode géniale, un peu comme un usine à questions automatisée :

  1. Le Chef d'Orchestre (Le Planner) : C'est un robot qui décide de la structure du jeu. Il dit : "On va faire 3 étapes. À l'étape 1, on regarde le chien. À l'étape 2, on regarde la fenêtre..."
  2. Le Code Secret (VPIR) : Au lieu d'écrire les règles en français tout de suite, le système les écrit d'abord en code informatique (comme une petite formule mathématique).
    • Exemple : SI (couleur == rouge) ET (chapeau == présent) ALORS continuer.
    • Le système exécute ce code sur la photo pour vérifier si c'est vrai ou faux. C'est comme un test de réalité infaillible.
  3. Le Traducteur : Une fois que le code est vérifié et qu'on est sûr que la logique est parfaite, un autre robot traduit ce code en français naturel pour que l'IA à tester puisse le lire.

L'analogie : Imaginez que vous voulez construire un pont. Au lieu de demander à un peintre de dessiner un pont qui ressemble solide, vous demandez d'abord à un ingénieur de le construire en acier (le code) et de tester sa solidité. Une fois le test réussi, vous demandez à un artiste de le peindre pour qu'il soit joli. Cela garantit que le pont ne s'effondrera jamais.

🎭 Le Piège : Les "Faux Jumeaux"

Ce qui rend ce test si difficile, c'est qu'ils créent deux versions presque identiques de la même question :

  • Version Vraie (True Path) : Toutes les conditions sont respectées. L'IA doit suivre le chemin jusqu'au bout.
  • Version Fausse (False Path) : Ils changent un tout petit détail (ex: le chien porte un chapeau bleu au lieu de rouge). Cela change tout le chemin : l'IA doit s'arrêter immédiatement et répondre à une question différente.

C'est comme un jeu de "Où est Charlie ?" où l'IA doit repérer le moindre changement de couleur pour ne pas se tromper de chemin. Si elle ne fait pas attention, elle continue tout droit alors qu'elle aurait dû tourner à gauche.

📉 Les Résultats : Même les plus forts trébuchent

Les chercheurs ont testé les IA les plus puissantes du monde (comme GPT-5, Gemini, Qwen) avec ce nouveau jeu.

  • Le verdict : Même les meilleures IA n'ont obtenu qu'environ 53 % de réussite. C'est à peine mieux que de deviner au hasard !
  • Pourquoi ? Plus le chemin est long (plus il y a d'étapes) et plus les règles sont complexes, plus les IA font des erreurs. Elles ont du mal à garder en tête toutes les conditions en même temps.

🎯 En résumé

MM-CondChain est comme un examen de conduite très strict pour les IA.

  • Avant, on leur demandait juste de savoir freiner.
  • Maintenant, on leur demande de conduire dans une ville complexe, de respecter des feux tricolores, de vérifier les panneaux, et de changer de direction instantanément si un piéton traverse, le tout en gardant le cap.

Ce test prouve que, même si les IA sont impressionnantes pour discuter ou dessiner, elles ont encore beaucoup de mal à raisonner logiquement de manière profonde en se basant sur ce qu'elles voient. C'est un défi majeur pour l'avenir de la technologie.