OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Gepubliceerd 2026-03-06

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

De "OmniVideoBench": Een Grote Test voor Slimme Videobots

Stel je voor dat je een nieuwe, superintelligente robot hebt die naar video's kan kijken en naar het geluid kan luisteren. Je wilt weten of deze robot echt begrijpt wat er gebeurt, of dat hij gewoon raadt. Dat is precies wat het team achter OmniVideoBench heeft gedaan. Ze hebben een enorme, zeer moeilijke test gemaakt om te zien hoe goed deze robots (die "Multimodale Large Language Models" of MLLMs heten) echt zijn in het combineren van beeld en geluid.

Hier is een simpele uitleg van wat ze hebben gedaan, met een paar leuke vergelijkingen:

1. Het Probleem: De "Blinde" en de "Dove"

Vroeger waren slimme computers vooral goed in het kijken naar plaatjes (zoals een blindeman die een tekening beschrijft) of het lezen van tekst. Later konden ze ook naar video's kijken. Maar er was een groot gat: ze waren vaak slecht in het samen gebruiken van beeld én geluid.

De Analogie: Stel je voor dat je een film kijkt met de geluidsdempers aan. Je ziet iemand rennen, maar je hoort niet of hij bang is of dat hij een race wint. Of je hoort een schreeuw, maar je ziet niet wie er schreeuwt.
De huidige robots: Veel bestaande tests voor robots kijken alleen naar het beeld of behandelen geluid als een "optioneel extraatje". Dat is alsof je een kok test door alleen te kijken of hij een mes vasthoudt, zonder te kijken of hij ook echt kan koken. Ze missen de echte magie van het samen werken van zintuigen.

2. De Oplossing: De Ultieme Videotest

Het team (van de NJU-LINK) heeft OmniVideoBench gebouwd. Dit is geen simpele quiz, maar een enorme, zorgvuldig samengestelde uitdaging.

De Ingrediënten: Ze hebben 628 echte video's verzameld, variërend van korte clips tot films van 30 minuten. Denk aan nieuws, sport, dagboeken (vlogs) en documentaires.
De Vragen: Ze hebben 1.000 vragen bedacht die je alleen kunt beantwoorden als je beide zintuigen gebruikt.
- Voorbeeld: "Waar hangt de poster 'NO ONE FIGHT ALONE'?" Je moet het geluid horen van iemand die zegt: "Ik heb die poster daar gehangen," én dan in het beeld zoeken waar die persoon staat. Als je alleen kijkt of alleen luistert, mis je het antwoord.
De "Cheat-proof" Regel: Ze hebben erop toegezien dat de vragen niet te makkelijk waren. Als een robot het antwoord al wist door alleen te lezen of alleen te kijken, werd de vraag verwijderd. Het moet echt een samenwerking zijn tussen oog en oor.

3. De Resultaten: De Robots Struikelen

Toen ze deze test lieten doen door de slimste robots ter wereld (zowel de gratis open-source modellen als de dure, gesloten modellen van grote tech-bedrijven), was het resultaat schokkend:

Geen enkele robot haalde een voldoende. De beste robot (Gemini-2.0-Pro) haalde maar net 58,9%. Dat is net onder het niveau van een "voldoende" (60%).
De open-source robots deden het bijna net zo goed als raden. Ze haalden rond de 30%, wat betekent dat ze grotendeels op het toeval leken te vertrouwen.
Muziek is een nachtmerrie. Robots zijn heel goed in het begrijpen van mensen die praten, maar als er muziek te horen is, zakken ze in elkaar. Muziek is abstract (het vertelt een gevoel, geen feiten), en dat vinden robots heel lastig te koppelen aan beelden.
Lange video's zijn zwaar. Hoe langer de video, hoe meer de robots de draad kwijtraken. Het is alsof je een heel boek moet samenvatten, maar je vergeet de eerste pagina's zodra je bij de laatste bent.

4. Waarom is dit belangrijk?

Dit onderzoek is als een spiegel voor de kunstmatige intelligentie. Het laat zien dat we nog ver verwijderd zijn van een echt "all-round" slimme robot die net zo goed begrijpt wat er in een film gebeurt als een mens.

Mensen vs. Robots: Mensen haalden 82,69% op deze test. Dat bewijst dat er nog een enorme kloof is tussen wat een robot nu kan en wat een mens kan.
De Toekomst: Door deze test openbaar te maken, hopen de onderzoekers dat andere wetenschappers en bedrijven hun robots gaan trainen om beter te worden in het "samenwerken" van zien en horen.

Kortom: OmniVideoBench is de "olympiade" voor videobots. Het laat zien dat de huidige robots nog te vaak "blind" zijn voor geluid of "doof" voor beelden, en dat ze nog veel moeten leren om echt slim te worden in een wereld vol video's en geluid.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. Het Probleem: De "Blinde" en de "Dove"

2. De Oplossing: De Ultieme Videotest

3. De Resultaten: De Robots Struikelen

4. Waarom is dit belangrijk?

Titel: OmniVideoBench: Naar Audiovisueel Begrip voor Omni-MLLM's

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. Het Probleem: De "Blinde" en de "Dove"

2. De Oplossing: De Ultieme Videotest

3. De Resultaten: De Robots Struikelen

4. Waarom is dit belangrijk?

Titel: OmniVideoBench: Naar Audiovisueel Begrip voor Omni-MLLM's

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation