LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Dit paper introduceert LVOmniBench, een nieuw benchmark voor het evalueren van de vaardigheden van omnimodale grote taalmodellen in het begrijpen van langdurige audio-video-inhoud, waarbij wordt aangetoond dat bestaande modellen nog aanzienlijke uitdagingen ondervinden bij het verwerken van extensieve multimodale input.

Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang

Gepubliceerd 2026-03-20
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-intelligente robot hebt die niet alleen kan lezen, maar ook naar video's kan kijken en naar audio kan luisteren. Deze robot, een "OmniLLM", is zo slim dat hij een gesprek met je kan voeren terwijl hij naar een film kijkt.

Maar tot nu toe was er een groot probleem: we testten deze robots alleen met korte filmpjes, zoals een TikTok van 10 seconden of een nieuwsbericht van 2 minuten. Dat is als het testen van een marathonloper door te kijken hoe snel hij de eerste 100 meter loopt. Het zegt je niets over zijn uithoudingsvermogen.

In de echte wereld zijn video's vaak lang: een documentaire van een uur, een tutorial over koken, of een vlog van een reis. Hierin gebeuren er veel dingen achter elkaar, en de geluiden en beelden hangen nauw met elkaar samen.

De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd LVOmniBench. Hier is hoe het werkt, vertaald naar simpele taal:

1. De "Marathon" voor Robots

In plaats van korte filmpjes, hebben de onderzoekers 275 lange video's verzameld. Sommige duren 10 minuten, andere zelfs 90 minuten.

  • De Analogie: Stel je voor dat je eerder alleen korte sprintjes liet rennen. Nu hebben ze een hele marathon voor ze neergelegd. De video's gaan over van alles: van koken en reizen tot films en documentaires.

2. De Vragen: Niet zomaar "Wat zie je?"

Ze hebben 1.014 vragen bedacht die je niet kunt beantwoorden als je alleen kijkt of alleen luistert. Je moet allebei doen.

  • Voorbeeld: Stel, in een video loopt een man door een tuin. Hij zegt: "Kijk, daar is Toby!" (een hond). Later zegt hij: "Oh, Toby is weer hier."
  • De Vraag: "Hoe vaak heeft de man Toby in de tuin ontmoet?"
  • Het Probleem: De robot moet niet alleen de hond zien, maar ook de stem horen en onthouden hoeveel keer dat gebeurde in die lange video. Als de robot alleen kijkt, mist hij de naam. Als hij alleen luistert, ziet hij niet of het dezelfde hond is.

3. De Testresultaten: Een flinke teleurstelling

Toen ze de beste robots (zowel de dure, gesloten modellen van Google als de gratis, open-source modellen) deze test lieten doen, was het resultaat schokkend:

  • De "Topper" (Gemini 3 Pro): Deze slimste robot haalde ongeveer 65% goed. Dat klinkt goed, maar voor een slimme robot die zo'n dure video's moet analyseren, is dat eigenlijk nog een flinke fout.
  • De "Gratis Robots": De open-source modellen haalden vaak minder dan 35%. Dat is bijna net zo goed als raden (25%).
  • De Conclusie: De robots zijn nog niet klaar voor lange video's. Ze raken de draad kwijt, vergeten wat er 20 minuten geleden gebeurde, of verwarren geluiden met beelden.

4. Waarom lukt het ze niet? (De "Gaten" in de kennis)

De onderzoekers keken waar de robots precies vastliepen:

  • Het geheugen: Ze vergeten snel wat er eerder in de video gebeurde.
  • De synchronisatie: Ze kunnen niet goed koppelen wanneer iets gebeurt. Bijvoorbeeld: "Hoor ik die geluiden nu, of was dat 5 minuten geleden?"
  • De "Blindheid" voor geluid: Soms kijken ze alleen naar het beeld en negeren ze wat er gezegd wordt, of andersom. Ze kunnen de twee werelden niet goed samenvoegen.
  • Muziek en emotie: Ze zijn heel slecht in het begrijpen van muziek of de toon van een stem (is iemand boos of blij?).

5. Wat betekent dit voor de toekomst?

Dit paper is een wake-up call. Het zegt: "We denken dat onze robots slim zijn, maar in de lange, echte wereld zijn ze nog niet zo slim als we denken."

Deze nieuwe test (LVOmniBench) is als een nieuwe rijbewijstest voor robots. Tot nu toe konden ze alleen in een parkeergarage rijden (korte video's). Nu moeten ze de snelweg op (lange video's). De resultaten tonen aan dat er nog veel werk aan de winkel is voordat robots echt kunnen "meedenken" met lange films of documentaires.

Kort samengevat:
De onderzoekers hebben een moeilijke proef gemaakt voor slimme AI's met lange video's. De robots zakten er zwaar voor door. Het bewijst dat we nog veel moeten leren over hoe computers lange verhalen kunnen begrijpen waarbij geluid en beeld perfect samenspel moeten zijn.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →