WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

🌍 WorldSense : Le "Permis de Conduire" pour les Robots qui voient et entendent

Imaginez que vous apprenez à conduire. Pour le faire en sécurité, vous ne regardez pas seulement la route (la vue). Vous écoutez aussi le klaxon d'une voiture derrière vous (l'ouïe) et vous sentez les vibrations du moteur ou la dureté du frein (le toucher). Si vous ne faisiez que regarder la route sans écouter, vous risqueriez de vous faire percuter.

Aujourd'hui, les intelligences artificielles (les "robots") sont très forts pour regarder des images et lire du texte, mais elles sont souvent sourdes et aveugles aux sons du monde réel. C'est là qu'intervient WorldSense.

1. Le Problème : Des Robots qui ont un "Trou dans la Raquette" 🎾

Jusqu'à présent, on testait les robots avec des exercices où ils devaient juste regarder une vidéo et répondre à une question. C'est comme si on testait un pilote de course en lui montrant une photo de la piste, sans lui dire qu'il y a un orage qui arrive ou qu'un moteur grince.

Les chercheurs ont créé WorldSense pour combler ce trou. C'est le premier examen qui teste si un robot peut comprendre le monde en même temps avec ses yeux (vidéo) et ses oreilles (audio).

2. La Solution : Un Grand Buffet de 1 662 Scènes 🍽️

Pour créer cet examen, l'équipe (venant de Xiaohongshu et de l'Université Jiao Tong de Shanghai) a préparé un "buffet" géant :

1 662 vidéos de la vie réelle (de la cuisine aux concerts, en passant par la nature).
3 172 questions à choix multiples.
80 experts humains ont travaillé dur pour s'assurer que chaque question est juste et difficile.

L'astuce de WorldSense ? Les questions sont piégées si on ne regarde que l'image ou que le son.

Exemple 1 : On voit un homme tenir un fruit. Visuellement, on ne sait pas ce qu'il fait. Mais si on écoute, on entend qu'il dit "Regardez la taille de ces myrtilles !". Sans le son, le robot est perdu.
Exemple 2 : On entend une musique joyeuse. Pour savoir de quel pays elle vient, il faut voir les drapeaux dans la vidéo ET entendre le rythme de la musique.

C'est comme un jeu de "Qui veut gagner des millions" où la réponse se trouve dans la combinaison des indices, pas dans un seul indice.

3. Le Résultat : Les Robots sont encore des "Nouveaux" 🐣

L'équipe a passé les meilleurs robots du monde (comme Gemini, GPT-4o, et d'autres modèles open-source) à l'examen WorldSense.

Le verdict est sans appel :

Les robots échouent lamentablement sur les tâches complexes. Le meilleur robot du monde (Gemini 2.5 Pro) n'a eu raison que 65 % du temps. C'est bien, mais loin d'être parfait pour un système qui doit gérer des voitures autonomes ou des hôpitaux.
Les robots "open-source" (gratuits) font pire que le hasard, comme s'ils devinaient au pile ou face.
Le constat : Quand on enlève le son, les robots s'effondrent. Quand on enlève l'image, ils s'effondrent aussi. Ils n'arrivent pas encore à "mélanger" les deux ingrédients correctement.

4. Pourquoi est-ce important ? 🚀

Imaginez un robot infirmier. S'il voit un patient tomber mais n'entend pas le cri de douleur, il ne comprendra pas la gravité de la situation. S'il entend une alarme mais ne voit pas où elle est, il ne pourra pas agir.

WorldSense nous dit : "Hé, nos robots sont encore des bébés ! Ils ne savent pas encore vraiment vivre dans notre monde à 360 degrés."

En résumé 🎯

WorldSense est comme un examen de conduite complet pour les intelligences artificielles. Il leur dit : "Ne vous contentez pas de regarder la route, écoutez aussi le moteur et sentez la route."

Pour l'instant, les robots ont encore besoin de beaucoup d'entraînement pour devenir de vrais conducteurs autonomes capables de comprendre la complexité du monde réel, où tout (le son, l'image, le contexte) est lié.

Le mot de la fin : Nous avons créé la carte routière (WorldSense) pour montrer aux ingénieurs où leurs robots perdent le nord, afin qu'ils puissent les rendre plus intelligents, plus sûrs et plus humains.

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

🌍 WorldSense : Le "Permis de Conduire" pour les Robots qui voient et entendent

1. Le Problème : Des Robots qui ont un "Trou dans la Raquette" 🎾

2. La Solution : Un Grand Buffet de 1 662 Scènes 🍽️

3. Le Résultat : Les Robots sont encore des "Nouveaux" 🐣

4. Pourquoi est-ce important ? 🚀

En résumé 🎯

1. Problématique et Contexte

2. Méthodologie : Le Benchmark WorldSense

A. Collecte et Curation des Données

B. Taxonomie et Diversité

C. Annotation et Qualité

D. Protocole d'Évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Perspectives

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

🌍 WorldSense : Le "Permis de Conduire" pour les Robots qui voient et entendent

1. Le Problème : Des Robots qui ont un "Trou dans la Raquette" 🎾

2. La Solution : Un Grand Buffet de 1 662 Scènes 🍽️

3. Le Résultat : Les Robots sont encore des "Nouveaux" 🐣

4. Pourquoi est-ce important ? 🚀

En résumé 🎯

1. Problématique et Contexte

2. Méthodologie : Le Benchmark WorldSense

A. Collecte et Curation des Données

B. Taxonomie et Diversité

C. Annotation et Qualité

D. Protocole d'Évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Perspectives

Articles similaires

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach