OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Publié 2026-03-06

📖 4 min de lecture☕ Lecture pause café

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Grand Défi des Films et de la Musique : OmniVideoBench

Imaginez que vous êtes un réalisateur de cinéma. Vous avez créé un film magnifique qui mélange des images dynamiques et une bande-son complexe (des dialogues, des bruits de pas, de la musique dramatique). Maintenant, vous voulez tester si un robot (une intelligence artificielle) est capable de comprendre ce film aussi bien qu'un humain.

Le problème ? Jusqu'à présent, les tests pour ces robots étaient un peu "tricheurs" ou trop faciles. Soit ils ne regardaient que l'image (comme un film muet), soit ils ne faisaient que écouter le son (comme une radio), soit ils se contentaient de deviner la réponse parmi plusieurs choix.

C'est là qu'intervient l'équipe de l'Université de Nanjing (NJU-LINK) avec leur nouvelle création : OmniVideoBench.

1. C'est quoi, ce "Bench" ?

Pensez à OmniVideoBench comme à un examen de conduite très strict pour les intelligences artificielles.

L'ancien examen : On vous donnait une photo d'une voiture et on vous demandait "Est-ce qu'elle est rouge ?". C'était facile.
Le nouvel examen (OmniVideoBench) : On vous montre un film de 30 minutes où il pleut, où le conducteur parle au téléphone, où la radio joue une musique triste, et où un piéton traverse soudainement. On vous pose une question piège : "Si le conducteur n'avait pas écouté la musique, aurait-il vu le piéton ?"

Pour répondre, le robot doit entendre la musique, voir la pluie, comprendre la conversation et relier le tout logiquement. C'est ça, le "raisonnement audio-visuel".

2. Comment ont-ils construit cet examen ?

L'équipe a été très méticuleuse, comme un chef cuisinier qui prépare un plat gastronomique :

Les Ingrédients (Les Vidéos) : Ils ont collecté 628 vidéos réelles (des vlogs, des documentaires, des matchs de sport, des nouvelles). Certaines durent quelques secondes, d'autres jusqu'à 30 minutes ! C'est comme avoir une bibliothèque de films variés.
Les Questions (Le Menu) : Ils ont écrit 1 000 questions très précises. Chaque question a une seule bonne réponse et ne peut pas être résolue juste en regardant l'image ou juste en écoutant le son. Il faut les deux.
La Recette (Le Raisonnement) : C'est la partie la plus géniale. Pour chaque question, ils ont écrit pas à pas comment un humain arrive à la réponse.
- Exemple : "Étape 1 : J'entends un bruit de verre brisé (Audio). Étape 2 : Je vois un vase tomber (Visuel). Étape 3 : Donc, le vase a cassé."
  Cela permet de vérifier que le robot ne fait pas que deviner, mais qu'il "pense" vraiment.

3. Le Résultat : Les Robots sont encore des bébés !

L'équipe a fait passer cet examen à des robots très célèbres (comme Gemini, Qwen, etc.). Le verdict est sans appel : c'est dur.

Le score humain : Les humains ont eu environ 83 % de bonnes réponses. C'est normal, on a des yeux et des oreilles qui fonctionnent bien ensemble depuis la naissance.
Le score des robots : Le meilleur robot (Gemini) a eu à peine 59 %. La plupart des autres robots ont fait pire que le hasard (comme s'ils avaient lancé une pièce de monnaie pour répondre).

Pourquoi est-ce si difficile pour eux ?

La Musique : Les robots sont nuls pour comprendre l'ambiance. Si une musique est triste, ils ne comprennent pas que cela change l'humeur de la scène.
Les Longs Films : Ils perdent le fil. Si le film dure 20 minutes, ils oublient ce qui s'est passé au début.
Le "Trucage" : Beaucoup de robots essaient de tricher en lisant juste les sous-titres ou en regardant une seule image clé, au lieu de vraiment écouter et voir tout le film.

4. Pourquoi est-ce important ?

Imaginez que vous voulez un robot pour aider les pompiers. Il doit pouvoir regarder une vidéo d'un incendie, entendre les cris de détresse et les bruits de l'effondrement, et comprendre la situation globale pour vous aider.

Si le robot ne comprend pas que la musique de fond indique un danger ou qu'un bruit spécifique signifie une explosion, il sera inutile, voire dangereux.

OmniVideoBench est donc une boussole. Il montre aux chercheurs : "Hé, vous êtes forts pour reconnaître des chats sur une photo, mais vous êtes perdus dans un film complexe. Il faut travailler sur la connexion entre vos oreilles et vos yeux."

En résumé

C'est un grand test de réalité pour les intelligences artificielles. Il leur dit : "Arrêtez de regarder juste l'image ou juste le son. Regardez le film entier, écoutez la bande-son, et essayez de comprendre l'histoire comme un vrai humain."

Pour l'instant, les robots sont encore des élèves qui ont besoin de beaucoup d'entraînement avant de pouvoir passer leur permis de "compréhension totale".

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

🎬 Le Grand Défi des Films et de la Musique : OmniVideoBench

1. C'est quoi, ce "Bench" ?

2. Comment ont-ils construit cet examen ?

3. Le Résultat : Les Robots sont encore des bébés !

4. Pourquoi est-ce important ?

En résumé

1. Problématique

2. Méthodologie : OmniVideoBench

A. Collecte et Composition des Données

B. Annotation et Création des Questions

C. Assurance Qualité

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

🎬 Le Grand Défi des Films et de la Musique : OmniVideoBench

1. C'est quoi, ce "Bench" ?

2. Comment ont-ils construit cet examen ?

3. Le Résultat : Les Robots sont encore des bébés !

4. Pourquoi est-ce important ?

En résumé

1. Problématique

2. Méthodologie : OmniVideoBench

A. Collecte et Composition des Données

B. Annotation et Création des Questions

C. Assurance Qualité

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation