OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Die Arbeit stellt OmniVideoBench vor, ein umfassendes Benchmark mit 1000 sorgfältig annotierten Frage-Antwort-Paaren aus 628 Videos, das die synergistische audio-visuelle reasoning-Fähigkeit multimodaler Large Language Models bewertet und dabei erhebliche Lücken zwischen aktuellen Modellen und menschlichem Schlussfolgern aufzeigt.

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Der große „OmniVideoBench"-Test: Warum KI bei Videos noch nicht so schlau ist wie ein Mensch

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter-Hund, der alles sehen und hören kann. Du denkst: „Wow, der versteht doch sicher jeden Film!" Aber das Paper von der NJU-LINK-Team-Gruppe sagt: „Nicht so schnell! Wir haben einen neuen Test entwickelt, um zu sehen, ob dieser Roboter wirklich alles versteht – oder ob er nur schaut und dabei die Ohren zuhält."

Hier ist die Geschichte des Tests, einfach erklärt:

1. Das Problem: Der „Ein-Augen-und-Ein-Ohr"-Effekt

Bisherige Tests für KI waren wie ein Blindes-und-Taubes-Spiel. Oft mussten die KIs nur Bilder ansehen (wie ein Blinder, der nur tastet) oder nur auf Töne hören (wie ein Tauber, der nur zuhört). Aber im echten Leben passiert beides gleichzeitig!

  • Die Metapher: Stell dir vor, du siehst jemanden weinen. Wenn du nur das Bild siehst, denkst du vielleicht: „Er ist traurig." Aber wenn du den Ton hörst, merkst du, dass er eigentlich lacht und nur eine Träne wegläuft. Die KI muss beides gleichzeitig verstehen, um den Witz zu kapieren. Bisherige Tests haben das oft ignoriert.

2. Die Lösung: OmniVideoBench – Der „Super-Prüfungs-Ring"

Die Forscher haben einen neuen, riesigen Testkoffer namens OmniVideoBench gebaut.

  • Der Inhalt: Statt nur ein paar Sekunden Clips zu zeigen, haben sie 628 echte Videos gesammelt. Diese gehen von ein paar Sekunden bis zu 30 Minuten lang!
  • Die Vielfalt: Es gibt Nachrichten, Sport, Dokumentationen, Vlogs (Tagebücher) und sogar Aufnahmen aus der Ich-Perspektive (als würdest du selbst durch die Welt laufen).
  • Die Fragen: Dazu gibt es 1.000 Fragen. Aber keine langweiligen „Was siehst du?"-Fragen. Die Fragen sind wie kleine Detektiv-Rätsel.
    • Beispiel: „Wo steht das Poster mit dem Spruch 'Niemand kämpft allein' im Verhältnis zu der Person, die die Bombe gezündet hat?"
    • Die KI muss nicht nur das Poster sehen, sondern auch hören, wer die Bombe gezündet hat, und dann beides im Kopf zusammenfügen, um die richtige Antwort zu finden.

3. Der „Spürhund"-Trick: Wie sie sicherstellen, dass die KI nicht schummelt

Das Tolle an diesem Test ist, dass jede Antwort nicht nur eine Lösung hat, sondern auch einen Schritt-für-Schritt-Beweis (eine „Spur") verlangt.

  • Die Metapher: Stell dir vor, ein Schüler schreibt eine Mathe-Arbeit. Früher hat der Lehrer nur das Endergebnis geprüft. Jetzt verlangt der Lehrer: „Zeig mir deinen Rechenweg!"
  • Die KI muss also sagen: „Schritt 1: Ich habe im Bild das Poster gesehen. Schritt 2: Ich habe im Ton gehört, dass Person X die Bombe gezündet hat. Schritt 3: Wenn ich beides zusammenfüge, steht das Poster links von Person X."
  • Wenn die KI nur ratet oder nur auf das Bild schaut, fällt sie durch, weil ihr der logische Beweis fehlt.

4. Die Ergebnisse: Die KI ist noch ein Kind

Als die Forscher die besten KI-Modelle (sowohl die kostenlosen als auch die teuren, geschlossenen Systeme) getestet haben, kam ein schockierendes Ergebnis:

  • Die Bestnote: Selbst der aktuell stärkste KI-Modell (Gemini-2.0-Pro) hat nur 58,9 % richtig. Das ist eine „4" oder eine „5" in der Schule.
  • Der Vergleich: Ein normaler Mensch schafft es auf 82,69 %.
  • Das Problem mit Musik: Die KIs sind besonders schlecht, wenn Musik im Video läuft. Sie verstehen Sprache gut, aber wenn ein Song spielt und eine Stimmung erzeugt, sind sie oft ratlos. Es ist, als würde man jemanden bitten, eine Geschichte zu erzählen, während ihm jemand eine laute Rockmusik vorspielt – die KI versteht den Rhythmus, aber nicht die Gefühle dahinter.
  • Lange Videos: Bei kurzen Clips sind die KIs okay. Aber bei 30-minütigen Videos verlieren sie den Faden, genau wie wir, wenn wir einen sehr langen, verworrenen Film ohne Pause schauen.

5. Fazit: Warum ist das wichtig?

Dieser Test ist wie ein Spiegel, der zeigt, wo die KI noch hinkt.
Bisher haben wir gedacht: „Die KI sieht alles!" Aber OmniVideoBench zeigt: „Nein, die KI sieht zwar viel, aber sie versteht die Verbindung zwischen Sehen und Hören noch nicht richtig."

Die Forscher hoffen, dass dieser Test wie ein Trainingsplan für Sportler wirkt. Indem wir die KIs mit diesen schwierigen, logischen Rätseln konfrontieren, werden sie gezwungen, besser zu lernen, wie man Bilder und Töne wirklich zusammenfügt. Erst dann können wir KIs haben, die nicht nur „schauen", sondern wirklich „verstehen", was in unserer Welt passiert.

Kurz gesagt: Wir haben einen neuen, sehr schwierigen Test gebaut, der zeigt, dass unsere KIs noch nicht so schlau sind wie wir Menschen, wenn es darum geht, Filme mit allen Sinnen zu verstehen. Aber jetzt wissen wir genau, wo wir sie noch trainieren müssen!