VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Ce papier présente VOILA, un nouveau benchmark à grande échelle évaluant la capacité des modèles de langage multimodaux à effectuer un raisonnement analogique visuel, révélant ainsi leurs importantes limites face aux relations inter-images par rapport aux performances humaines.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

Publié 2026-02-26
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 VOILA : Le Grand Test de "Sagesse" des Robots

Imaginez que vous avez un robot très intelligent, capable de voir des photos et de lire des livres. On l'appelle un MLLM (un modèle de langage multimodal). Ce robot est excellent pour décrire ce qu'il voit : "C'est un chien qui court dans le parc".

Mais la vraie question est : Est-ce qu'il est intelligent, ou est-ce qu'il fait juste du copier-coller ?

Les chercheurs de l'Université d'État de l'Arizona ont créé un nouveau jeu, appelé VOILA, pour tester la "vraie" intelligence de ces robots. Voici comment ça marche.

1. Le Jeu de l'Analogie Visuelle (Le Puzzle de la Logique)

Pour comprendre VOILA, imaginez un jeu de cartes ou un puzzle visuel. On vous montre trois images et on vous demande de deviner la quatrième.

  • Image 1 : Un ours qui conduit une voiture.
  • Image 2 : Un ours qui lit un livre.
    • Le changement : L'ours est resté le même, mais l'action a changé (conduire ➔ lire).
  • Image 3 : Deux lapins qui jouent au ballon.
  • Le défi : Quelle est l'Image 4 ?

Pour réussir, le robot doit comprendre la règle cachée entre l'Image 1 et l'Image 2, puis l'appliquer à l'Image 3.

  • La logique : Si l'ours a changé d'action, alors les lapins doivent aussi changer d'action.
  • La réponse attendue : Deux lapins qui lisent un livre.

C'est ce qu'on appelle un raisonnement par analogie. C'est comme dire : "Si A est à B, alors C est à D".

2. Le Piège : Les "Distractions" (Le Magicien qui fait des tours)

Pour rendre le jeu encore plus difficile, les chercheurs ont créé deux versions :

  • VOILA-ND (Sans distraction) : Tout est logique et clair.
  • VOILA-WD (Avec distraction) : C'est là que ça se corse. Imaginez que dans l'Image 1, l'ours conduit une voiture rouge, et dans l'Image 2, il lit un livre bleu. Le robot pourrait se tromper en pensant que la couleur est la règle importante.

Dans la version "Avec distraction", les chercheurs ajoutent des éléments inutiles (comme le nombre d'objets ou la couleur) qui ne changent rien à la logique. C'est comme si un magicien vous montrait un lapin blanc, puis un lapin noir, pour vous faire croire que la magie est dans la couleur, alors que la vraie règle est que le lapin change de chapeau.

Le but : Voir si le robot arrive à ignorer le "bruit" et trouver la vraie règle.

3. Les Résultats : Les Robots sont encore des Écoliers

Les chercheurs ont mis à l'épreuve les meilleurs robots du moment (comme GPT-4o, LLaMa, etc.) et des humains.

  • Les Humains : C'est facile pour nous. Nous voyons la logique immédiatement. 70% de réussite.
  • Les Robots (Le pire cas) : Ils sont très mauvais. Le meilleur robot n'a réussi que 13% des cas difficiles !
  • Les Robots (Le meilleur cas) : Même le champion (GPT-4o) n'arrive qu'à 29% sur les cas simples.

L'analogie : C'est comme si un élève de primaire (le robot) réussissait à lire les mots sur une page, mais ne comprenait pas l'histoire qu'ils racontent. Il voit "Ours + Voiture" et "Ours + Livre", mais il ne comprend pas le lien de cause à effet.

4. Pourquoi les Robots échouent-ils ?

Les chercheurs ont découvert trois choses intéressantes :

  1. Ils perdent le fil : Plus le problème est long, plus ils se trompent. C'est comme si vous leur donniez une recette de cuisine : ils savent lire les ingrédients, mais ils oublient l'étape suivante.
  2. Ils aiment les listes, pas les collages : Si on montre les trois images séparément (une par une), ils font un peu mieux. Si on les colle toutes ensemble en une seule image (un "collage"), ils sont perdus. C'est comme essayer de lire trois livres différents posés les uns sur les autres : c'est trop confus pour eux.
  3. La méthode "Pas à pas" aide un peu : Si on demande au robot de réfléchir étape par étape ("D'abord, décrivez l'image. Ensuite, trouvez la règle. Enfin, appliquez-la"), il réussit un peu mieux. C'est comme lui donner une échelle pour monter, au lieu de le pousser du sol. Mais même avec l'échelle, il ne grimpe pas très haut.

5. Conclusion : Il reste du travail

L'article VOILA nous dit une chose importante : Les robots sont de superbes dessinateurs et de bons lecteurs, mais ils ne sont pas encore de vrais penseurs.

Ils peuvent générer une image magnifique, mais ils ne comprennent pas pourquoi cette image doit être là. Ils manquent de cette petite étincelle d'intelligence humaine qui permet de faire des liens abstraits entre des choses différentes.

En résumé : VOILA est un nouveau test de "sagesse" qui montre que nos intelligences artificielles actuelles sont encore loin de l'intelligence humaine lorsqu'il s'agit de résoudre des énigmes visuelles complexes. Il faut encore beaucoup d'entraînement avant qu'elles ne puissent vraiment "comprendre" le monde comme nous.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →