TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

Deze paper introduceert TimeBlind, een diagnostisch benchmark dat de beperkte spatio-temporele redeneervermogens van Multimodale Large Language Models blootlegt door te tonen dat zelfs geavanceerde modellen sterk afhankelijk zijn van statische visuele cues in plaats van echte temporele logica.

Baiqi Li, Kangyi Zhao, Ce Zhang, Chancharik Mitra, Jean de Dieu Nyandwi, Gedas Bertasius

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles kan zien en begrijpen. Je laat hem een filmpje zien van iemand die koffie zet. De robot zegt: "Ah, ik zie een mok, melk en koffie. Dat is een leuk filmpje!"

Maar wat als je vraagt: "Zwaait de persoon met de mok terwijl hij de melk erin giet, of houdt hij hem stil?"

Volgens het nieuwe onderzoek TimeBlind, dat in dit paper wordt gepresenteerd, is die robot eigenlijk tijdblind. Hij ziet wel wat er is, maar hij snapt niet echt hoe het zich in de tijd ontwikkelt.

Hier is een simpele uitleg van wat de onderzoekers hebben gedaan en wat ze ontdekten, met wat creatieve vergelijkingen:

1. Het Probleem: De "Foto-Blindheid"

Huidige slimme video-robots (zoals GPT-5 of Gemini) zijn geweldig in het herkennen van objecten op een foto. Ze kunnen een hond, een auto of een kopje zien. Maar video is geen foto; het is een stroom van gebeurtenissen.

De onderzoekers zeggen dat deze robots vaak korte weggetjes nemen. In plaats van echt na te denken over de tijd, kijken ze naar de objecten en raden ze het antwoord.

  • De Analogie: Het is alsof je iemand een foto van een bakfiets geeft en vraagt: "Rijdt deze fiets naar links of rechts?" Als de persoon alleen naar de wielen kijkt en zegt "rechts" omdat dat vaak zo is, heeft hij de beweging niet echt begrepen. Hij heeft een gokje gewaagd op basis van wat hij kent, niet op basis van wat hij ziet gebeuren.

2. De Oplossing: TimeBlind (Het "Tijds-Testje")

Om te zien of robots echt snappen hoe tijd werkt, hebben de onderzoekers TimeBlind bedacht. Dit is een testbank met 600 paar filmpjes.

  • De "Tweeling" Methode: Ze maken twee filmpjes die er exact hetzelfde uitzien op de foto (zelfde achtergrond, zelfde objecten), maar waar de beweging anders is.
    • Filmpje A: Iemand schudt de mok.
    • Filmpje B: Iemand houdt de mok stil.
  • De Vraag: De robot moet het verschil zien. Als hij alleen naar de foto's kijkt, kan hij het niet weten. Hij moet echt kijken naar de beweging in de tijd.
  • De "Tegenstrijdige Vraag": Ze stellen ook twee vragen die elkaars tegenhanger zijn. Als het antwoord op vraag 1 "Ja" is voor filmpje A, is het "Nee" voor filmpje B. Dit voorkomt dat de robot gewoon een slimme zinnetje giet zonder naar het filmpje te kijken.

3. De Resultaten: De Robots Struikelen

De onderzoekers hebben meer dan 20 van 's werelds slimste robots getest. Het resultaat was verbazingwekkend slecht:

  • Mensen: Haalden 98,2% goed. Voor ons is het verschil tussen schudden en stilhouden heel duidelijk.
  • De Beste Robot (Gemini 3 Pro): Haalde maar 48,2% goed. Dat is nauwelijks beter dan raden!
  • Andere Robots: Veel deden het nog slechter, soms zelfs slechter dan een muntje gooien.

Wat ging er mis?
De robots waren goed in het herkennen van losse dingen (bijv. "er is een mok"), maar faalden volledig bij:

  • Snelheid: Is het langzaam of snel?
  • Kracht: Is het zachtjes of hard?
  • Tijdslogica: Wat gebeurt er eerst en wat daarna?

Het was alsof je een pianist vraagt om een liedje te spelen, maar hij kan alleen de noten op het papier zien, niet de melodie die eruit komt.

4. Waarom is dit belangrijk?

Je zou kunnen denken: "Nou, ze zijn toch slim?" Maar voor veel dingen in de echte wereld is tijdsbegrip cruciaal.

  • Een zelfrijdende auto: Moet niet alleen zien dat er een kind is, maar ook begrijpen dat het kind naar de weg loopt (beweging) en niet alleen bij de weg staat.
  • Een robot in een fabriek: Moet weten of een machine versnelt of remt, anders kan hij een ongeluk veroorzaken.

Als robots "tijdblind" blijven, kunnen we ze niet veilig in de echte wereld zetten.

Conclusie

TimeBlind is als een strenge leraar die zegt: "Stop met gissen en kijk echt naar wat er gebeurt." Het onderzoek laat zien dat onze slimste computers nog steeds een groot gat hebben in hun begrip van tijd. Ze zien de wereld als een reeks foto's, terwijl de echte wereld een film is.

De boodschap is duidelijk: we moeten robots niet alleen leren zien, maar ze ook leren voelen hoe de tijd voorbijgaat.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →