VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎨 VOILA : Le Grand Test de "Sagesse" des Robots

Imaginez que vous avez un robot très intelligent, capable de voir des photos et de lire des livres. On l'appelle un MLLM (un modèle de langage multimodal). Ce robot est excellent pour décrire ce qu'il voit : "C'est un chien qui court dans le parc".

Mais la vraie question est : Est-ce qu'il est intelligent, ou est-ce qu'il fait juste du copier-coller ?

Les chercheurs de l'Université d'État de l'Arizona ont créé un nouveau jeu, appelé VOILA, pour tester la "vraie" intelligence de ces robots. Voici comment ça marche.

1. Le Jeu de l'Analogie Visuelle (Le Puzzle de la Logique)

Pour comprendre VOILA, imaginez un jeu de cartes ou un puzzle visuel. On vous montre trois images et on vous demande de deviner la quatrième.

Image 1 : Un ours qui conduit une voiture.
Image 2 : Un ours qui lit un livre.
- Le changement : L'ours est resté le même, mais l'action a changé (conduire ➔ lire).
Image 3 : Deux lapins qui jouent au ballon.
Le défi : Quelle est l'Image 4 ?

Pour réussir, le robot doit comprendre la règle cachée entre l'Image 1 et l'Image 2, puis l'appliquer à l'Image 3.

La logique : Si l'ours a changé d'action, alors les lapins doivent aussi changer d'action.
La réponse attendue : Deux lapins qui lisent un livre.

C'est ce qu'on appelle un raisonnement par analogie. C'est comme dire : "Si A est à B, alors C est à D".

2. Le Piège : Les "Distractions" (Le Magicien qui fait des tours)

Pour rendre le jeu encore plus difficile, les chercheurs ont créé deux versions :

VOILA-ND (Sans distraction) : Tout est logique et clair.
VOILA-WD (Avec distraction) : C'est là que ça se corse. Imaginez que dans l'Image 1, l'ours conduit une voiture rouge, et dans l'Image 2, il lit un livre bleu. Le robot pourrait se tromper en pensant que la couleur est la règle importante.

Dans la version "Avec distraction", les chercheurs ajoutent des éléments inutiles (comme le nombre d'objets ou la couleur) qui ne changent rien à la logique. C'est comme si un magicien vous montrait un lapin blanc, puis un lapin noir, pour vous faire croire que la magie est dans la couleur, alors que la vraie règle est que le lapin change de chapeau.

Le but : Voir si le robot arrive à ignorer le "bruit" et trouver la vraie règle.

3. Les Résultats : Les Robots sont encore des Écoliers

Les chercheurs ont mis à l'épreuve les meilleurs robots du moment (comme GPT-4o, LLaMa, etc.) et des humains.

Les Humains : C'est facile pour nous. Nous voyons la logique immédiatement. 70% de réussite.
Les Robots (Le pire cas) : Ils sont très mauvais. Le meilleur robot n'a réussi que 13% des cas difficiles !
Les Robots (Le meilleur cas) : Même le champion (GPT-4o) n'arrive qu'à 29% sur les cas simples.

L'analogie : C'est comme si un élève de primaire (le robot) réussissait à lire les mots sur une page, mais ne comprenait pas l'histoire qu'ils racontent. Il voit "Ours + Voiture" et "Ours + Livre", mais il ne comprend pas le lien de cause à effet.

4. Pourquoi les Robots échouent-ils ?

Les chercheurs ont découvert trois choses intéressantes :

Ils perdent le fil : Plus le problème est long, plus ils se trompent. C'est comme si vous leur donniez une recette de cuisine : ils savent lire les ingrédients, mais ils oublient l'étape suivante.
Ils aiment les listes, pas les collages : Si on montre les trois images séparément (une par une), ils font un peu mieux. Si on les colle toutes ensemble en une seule image (un "collage"), ils sont perdus. C'est comme essayer de lire trois livres différents posés les uns sur les autres : c'est trop confus pour eux.
La méthode "Pas à pas" aide un peu : Si on demande au robot de réfléchir étape par étape ("D'abord, décrivez l'image. Ensuite, trouvez la règle. Enfin, appliquez-la"), il réussit un peu mieux. C'est comme lui donner une échelle pour monter, au lieu de le pousser du sol. Mais même avec l'échelle, il ne grimpe pas très haut.

5. Conclusion : Il reste du travail

L'article VOILA nous dit une chose importante : Les robots sont de superbes dessinateurs et de bons lecteurs, mais ils ne sont pas encore de vrais penseurs.

Ils peuvent générer une image magnifique, mais ils ne comprennent pas pourquoi cette image doit être là. Ils manquent de cette petite étincelle d'intelligence humaine qui permet de faire des liens abstraits entre des choses différentes.

En résumé : VOILA est un nouveau test de "sagesse" qui montre que nos intelligences artificielles actuelles sont encore loin de l'intelligence humaine lorsqu'il s'agit de résoudre des énigmes visuelles complexes. Il faut encore beaucoup d'entraînement avant qu'elles ne puissent vraiment "comprendre" le monde comme nous.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) ont fait des progrès remarquables dans des tâches telles que la légende d'images ou la réponse à des questions visuelles (VQA). Cependant, leur capacité à effectuer un raisonnement relationnel abstrait et à comprendre les relations entre plusieurs images reste un défi majeur.

Limites des benchmarks existants : La plupart des tâches de raisonnement visuel actuelles reposent sur des formats à choix multiples (QCM), qui évaluent la reconnaissance plutôt que la génération de solutions complexes. Elles ne testent pas suffisamment la capacité des modèles à transférer des connaissances abstraites d'un contexte visuel à un autre.
Le besoin : Il est nécessaire d'évaluer la capacité des MLLM à générer des solutions pour des tâches complexes nécessitant un raisonnement de haut niveau (création plutôt que simple évaluation), en particulier dans le cadre du raisonnement par analogie visuelle.

2. Méthodologie : Le Benchmark VOILA

Les auteurs introduisent VOILA, un benchmark à grande échelle, ouvert et dynamique, conçu pour évaluer la compréhension perceptuelle et le raisonnement relationnel abstrait des MLLM.

A. Concept de la tâche

La tâche centrale est le raisonnement par analogie visuelle de type $A : A' :: B : ?$ .

Le modèle reçoit trois images : une paire de référence ( $A, A'$ ) et une image d'application ( $B$ ).
L'objectif est de générer la quatrième image ( $B'$ ) qui complète l'analogie en appliquant la relation observée entre $A$ et $A'$ à l'image $B$ .
Contrairement aux QCM, le modèle doit générer la réponse (à la fois textuellement et visuellement) sans choix prédéfinis.

B. Construction du Dataset

VOILA est généré dynamiquement à l'aide de modèles de génération d'images (SDXL) basés sur des prompts textuels structurés.

Propriétés : Trois attributs sont manipulés : le nombre de sujets, le type de sujet (ex: chien, humain) et l'action (ex: courir, lire).
Règles : Quatre types de règles logiques sont appliqués aux propriétés :
1. Stable : La propriété reste identique.
2. Changement : La propriété change d'une valeur à une autre.
3. Arithmétique : Le nombre de sujets change selon une opération mathématique (ex: +2, -1).
4. Distraction (VOILA-WD) : Une propriété change de manière aléatoire et sans lien logique avec l'analogie, forçant le modèle à ignorer le bruit.
Échelle : Le dataset peut générer plus de 6,4 millions de scénarios uniques à travers 19 structures différentes.
Deux sous-ensembles :
- VOILA-ND (No Distraction) : Sans règles de distraction.
- VOILA-WD (With Distraction) : Inclut des éléments de distraction pour augmenter la difficulté.

C. Pipeline d'Évaluation

L'évaluation suit une approche Least-to-Most (L2M) (du moins au plus), décomposant la tâche en quatre étapes séquentielles :

Compréhension visuelle : Décrire le contenu des trois images (sujet, nombre, action).
Identification des relations : Déterminer quelles propriétés changent ou restent stables entre la première et la deuxième image.
Application des relations : Prédire les propriétés de la quatrième image en appliquant les règles identifiées à la troisième image.
Génération d'image : Produire l'image finale correspondant à la description prédite.

L'évaluation est effectuée en comparant les sorties du modèle (texte et image générée) avec la vérité terrain, en utilisant GPT-4o comme juge pour les étapes textuelles et visuelles.

3. Contributions Clés

VOILA Benchmark : Introduction d'un benchmark ouvert et dynamique pour évaluer le raisonnement analogique visuel, dépassant les limites des QCM statiques.
Méthode de génération : Utilisation de modèles text-to-image pour créer un dataset massivement évolutif avec des configurations de règles complexes et des éléments de distraction.
Analyse approfondie : Une investigation détaillée des facteurs influençant la performance (format d'entrée, techniques de prompting, présence de distractions, type d'information).

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs MLLM d'état de l'art (GPT-4o, LLaMa 3.2, Qwen2-VL, CogVLM2, etc.) et comparées à la performance humaine (via Amazon Mechanical Turk).

Écart de performance Humain vs IA :
- Les humains obtiennent environ 70-71% de précision sur les deux versions (WD et ND).
- Les meilleurs modèles MLLM obtiennent des résultats très faibles : 13% pour LLaMa 3.2 sur VOILA-WD et 29% pour GPT-4o sur VOILA-ND.
- L'écart de performance est d'environ 58% sur VOILA-WD et 40% sur VOILA-ND.
Analyse par étape :
- Les modèles réussissent bien la description d'images (environ 60-78% de précision).
- La performance chute drastiquement lors de l'identification des relations et surtout lors de l'application de ces relations pour prédire la quatrième image.
- La génération d'image est l'étape la plus faible, avec des taux de précision souvent inférieurs à 5% pour les modèles les moins performants.
Impact des distractions (VOILA-WD) :
- La présence de règles de distraction réduit significativement la performance de tous les modèles (sauf LLaMa 3.2 qui montre une meilleure robustesse relative sur ce dataset spécifique).
- GPT-4o voit sa précision chuter de 29% (ND) à 6,4% (WD) sur l'étape d'application des relations.
Facteurs d'amélioration :
- Prompting L2M : L'approche "Least-to-Most" améliore considérablement les résultats par rapport à une réponse directe (Direct Answer).
- Format d'entrée : L'utilisation d'images séquentielles (3 images séparées) est nettement supérieure (environ +40%) à l'utilisation d'une image collage unique, probablement en raison des contraintes de résolution.
- Information textuelle vs visuelle : Dans une étude d'ablation, GPT-4o a obtenu 49% de précision avec des descriptions textuelles contre 22% avec les images brutes, révélant un fossé entre le raisonnement textuel et visuel.

5. Signification et Conclusion

Le papier VOILA démontre que, malgré leurs capacités impressionnantes en perception visuelle, les MLLM actuels manquent cruellement de capacités de raisonnement relationnel abstrait et de transfert de connaissances.

Limites cognitives : Les modèles peinent à isoler les relations pertinentes du bruit (distractions) et à appliquer des règles logiques complexes à de nouveaux cas visuels.
Importance du benchmark : VOILA sert de test rigoureux pour mesurer l'intelligence cognitive de niveau humain dans les modèles multimodaux. Il met en évidence que la simple accumulation de données d'entraînement ne suffit pas pour acquérir un raisonnement analogique robuste.
Perspectives : Ce travail ouvre la voie à de nouvelles architectures et stratégies d'entraînement capables de mieux modéliser les relations abstraites et de gérer la complexité du raisonnement multi-étapes dans le domaine visuel.

En résumé, VOILA révèle un fossé significatif entre la perception visuelle des IA et leur capacité à raisonner, soulignant la nécessité de développer des modèles capables de véritable compréhension relationnelle et non seulement de reconnaissance de motifs.