TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die alles kan zien en begrijpen. Je laat hem een filmpje zien van iemand die koffie zet. De robot zegt: "Ah, ik zie een mok, melk en koffie. Dat is een leuk filmpje!"

Maar wat als je vraagt: "Zwaait de persoon met de mok terwijl hij de melk erin giet, of houdt hij hem stil?"

Volgens het nieuwe onderzoek TimeBlind, dat in dit paper wordt gepresenteerd, is die robot eigenlijk tijdblind. Hij ziet wel wat er is, maar hij snapt niet echt hoe het zich in de tijd ontwikkelt.

Hier is een simpele uitleg van wat de onderzoekers hebben gedaan en wat ze ontdekten, met wat creatieve vergelijkingen:

1. Het Probleem: De "Foto-Blindheid"

Huidige slimme video-robots (zoals GPT-5 of Gemini) zijn geweldig in het herkennen van objecten op een foto. Ze kunnen een hond, een auto of een kopje zien. Maar video is geen foto; het is een stroom van gebeurtenissen.

De onderzoekers zeggen dat deze robots vaak korte weggetjes nemen. In plaats van echt na te denken over de tijd, kijken ze naar de objecten en raden ze het antwoord.

De Analogie: Het is alsof je iemand een foto van een bakfiets geeft en vraagt: "Rijdt deze fiets naar links of rechts?" Als de persoon alleen naar de wielen kijkt en zegt "rechts" omdat dat vaak zo is, heeft hij de beweging niet echt begrepen. Hij heeft een gokje gewaagd op basis van wat hij kent, niet op basis van wat hij ziet gebeuren.

2. De Oplossing: TimeBlind (Het "Tijds-Testje")

Om te zien of robots echt snappen hoe tijd werkt, hebben de onderzoekers TimeBlind bedacht. Dit is een testbank met 600 paar filmpjes.

De "Tweeling" Methode: Ze maken twee filmpjes die er exact hetzelfde uitzien op de foto (zelfde achtergrond, zelfde objecten), maar waar de beweging anders is.
- Filmpje A: Iemand schudt de mok.
- Filmpje B: Iemand houdt de mok stil.
De Vraag: De robot moet het verschil zien. Als hij alleen naar de foto's kijkt, kan hij het niet weten. Hij moet echt kijken naar de beweging in de tijd.
De "Tegenstrijdige Vraag": Ze stellen ook twee vragen die elkaars tegenhanger zijn. Als het antwoord op vraag 1 "Ja" is voor filmpje A, is het "Nee" voor filmpje B. Dit voorkomt dat de robot gewoon een slimme zinnetje giet zonder naar het filmpje te kijken.

3. De Resultaten: De Robots Struikelen

De onderzoekers hebben meer dan 20 van 's werelds slimste robots getest. Het resultaat was verbazingwekkend slecht:

Mensen: Haalden 98,2% goed. Voor ons is het verschil tussen schudden en stilhouden heel duidelijk.
De Beste Robot (Gemini 3 Pro): Haalde maar 48,2% goed. Dat is nauwelijks beter dan raden!
Andere Robots: Veel deden het nog slechter, soms zelfs slechter dan een muntje gooien.

Wat ging er mis?
De robots waren goed in het herkennen van losse dingen (bijv. "er is een mok"), maar faalden volledig bij:

Snelheid: Is het langzaam of snel?
Kracht: Is het zachtjes of hard?
Tijdslogica: Wat gebeurt er eerst en wat daarna?

Het was alsof je een pianist vraagt om een liedje te spelen, maar hij kan alleen de noten op het papier zien, niet de melodie die eruit komt.

4. Waarom is dit belangrijk?

Je zou kunnen denken: "Nou, ze zijn toch slim?" Maar voor veel dingen in de echte wereld is tijdsbegrip cruciaal.

Een zelfrijdende auto: Moet niet alleen zien dat er een kind is, maar ook begrijpen dat het kind naar de weg loopt (beweging) en niet alleen bij de weg staat.
Een robot in een fabriek: Moet weten of een machine versnelt of remt, anders kan hij een ongeluk veroorzaken.

Als robots "tijdblind" blijven, kunnen we ze niet veilig in de echte wereld zetten.

Conclusie

TimeBlind is als een strenge leraar die zegt: "Stop met gissen en kijk echt naar wat er gebeurt." Het onderzoek laat zien dat onze slimste computers nog steeds een groot gat hebben in hun begrip van tijd. Ze zien de wereld als een reeks foto's, terwijl de echte wereld een film is.

De boodschap is duidelijk: we moeten robots niet alleen leren zien, maar ze ook leren voelen hoe de tijd voorbijgaat.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Multimodale Grootte Taalmodellen (MLLMs) indrukwekkende prestaties leveren op het gebied van statische semantiek (het begrijpen van beelden en objecten), blijft hun begrip van temporale dynamiek (tijdsgerelateerde veranderingen) kwetsbaar. Bestaande benchmarks voor video-analyse evalueren vaak het vermogen om gebeurtenissen te herkennen, maar verwarren dit met werkelijk temporale redenering. Modellen maken vaak gebruik van "statische shortcuts": ze correleren visuele entiteiten met antwoorden zonder de tijd te modelleren, of ze vertrouwen op taalkundige aannames (language priors) in plaats van visuele dynamiek. Dit leidt tot een overschatting van het werkelijke vermogen van AI-systemen om causale structuren en fijne tijdsverschillen in video's te begrijpen, wat essentieel is voor toepassingen zoals robotica en embodied AI.

Methodologie: TimeBlind Benchmark

De auteurs introduceren TimeBlind, een diagnostisch benchmark dat is ontworpen om temporale structuur te isoleren van statische visuele informatie en taalkundige hints.

Minimal-Pairs Paradigma:
- Elke testinstance bestaat uit een paar video's ( $v_1, v_2$ ) die identieke statische visuele inhoud hebben (dezelfde objecten, achtergrond, personen), maar uitsluitend verschillen in hun temporale structuur (bijv. de snelheid van een beweging, de volgorde van gebeurtenissen, of de richting).
- Dit dwingt het model om echt naar de tijd te kijken, aangezien statische kenmerken geen onderscheidend vermogen bieden.
Complementaire Vragen:
- Voor elk video-paar worden twee vragen ( $q_1, q_2$ ) gesteld die elkaars tegenhanger zijn. Het juiste antwoord wisselt tussen de twee video's.
- Dit neutraliseert taalkundige aannames; een model kan niet gokken op basis van tekstuele waarschijnlijkheid omdat de context voor beide vragen identiek is, maar het antwoord anders.
Taxonomie van Temporele Compositie:
Geïnspireerd door cognitiewetenschap, is de benchmark gestructureerd in drie hiërarchische niveaus:
- Events (Gebeurtenissen): Het herkennen van atomaire veranderingen (bijv. "openen" vs. "sluiten", staten overgangen).
- Event Attributes (Gebeurteniseigenschappen): Het waarnemen van hoe een gebeurtenis verloopt (kinematische eigenschappen zoals snelheid, richting, duur; en dynamische eigenschappen zoals kracht en magnitude).
- Structural Event Logic (Logica van Gebeurtenisstructuren): Het redeneren over de interdependentie van meerdere gebeurtenissen. Dit omvat:
  - Temporale Topologie: Alle 13 relaties uit de Interval Algebra van Allen (bijv. overlap, begint, eindigt, tijdens).
  - Causale Contingentie: Het onderscheiden van oorzaak en gevolg.
  - Cross-Event Vergelijking: Het vergelijken van tijdsduur of intensiteit tussen verschillende gebeurtenissen.
Data Constructie:
De dataset bevat 600 zorgvuldig gecureerde instances (totaal 2.400 video-vraagparen). De data komt uit drie bronnen: internet-retrieval, menselijke opnames en simulaties (bijv. Unity) voor precieze controle over tijdsfactoren. Elke instance wordt handmatig geverifieerd op statische consistentie en temporale minimaliteit.

Belangrijkste Bijdragen

TimeBlind Benchmark: Een diagnostisch instrument dat temporale redenering isoleert door statische shortcuts en taalkundige priors te elimineren.
Cognitieve Taxonomie: Een gestructureerde indeling van temporale begrip in Events, Attributen en Structurele Logica, die verder gaat dan bestaande benchmarks die vaak beperkt zijn tot simpele "voor/na" relaties.
Diagnostische Bevindingen: Een uitgebreide evaluatie van meer dan 20 state-of-the-art (SOTA) modellen die een groot gat blootlegt tussen de waargenomen en werkelijke temporale redeneercapaciteiten.

Resultaten

De auteurs hebben meer dan 20 SOTA-modellen geëvalueerd, waaronder gesloten bronmodellen (GPT-5, Gemini 3 Pro) en open-source modellen (Qwen3-VL, Molmo2, InternVL).

Algemene Prestaties: Zelfs de beste modellen presteren slecht. De Instance Accuracy (I-Acc)—het percentage waarbij een model beide video's in een paar correct onderscheidt—ligt voor de beste modellen (Gemini 3 Pro) op slechts 48,2%. Dit staat in schril contrast met menselijke prestaties (98,2%).
Statische Shortcuts: Hoewel modellen hoge scores halen op standaard nauwkeurigheid (Acc), zakken ze in op I-Acc, wat aangeeft dat ze vaak op statische hints vertrouwen in plaats van temporale logica.
Hiërarchische Deficiënties:
- Modellen doen het redelijk op discrete Events (bijv. GPT-5: 58,3%).
- Prestaties dalen drastisch bij Event Attributes (fysieke dynamiek zoals snelheid en kracht), waar GPT-5 zakt naar 32,3% en Gemini 3 Pro naar 36,7%.
- Structural Event Logic (causaliteit en complexe relaties) blijft een uitdaging, hoewel gesloten modellen hier beter in zijn dan open-source modellen.
Ablatiestudies:
- Input Frames: Het verhogen van het aantal frames (van 8 naar 32) leidt slechts tot marginale verbeteringen (<2% voor GPT-5).
- Modelgrootte: Het schalen van modelgrootte (bijv. van 8B naar 235B parameters) verbetert de prestaties niet significant (<10% stijging).
- Inference-Time Reasoning: Het toevoegen van "Thinking"-stappen (redeneren voor het antwoord) helpt enigszins, maar is onvoldoende om het benchmarkprobleem op te lossen (GPT-5 bereikt maximaal 49,6% I-Acc).
- Shortcuts: Tests met willekeurige frames, alleen tekst, of geschudde frames tonen aan dat TimeBlind echt temporale sequentiële modellering vereist.

Betekenis en Impact

TimeBlind demonstreert dat huidige toonaangevende video-LLM's fundamenteel "tijdsblind" zijn. Ze vertrouwen te zwaar op statische visuele patronen en taalkundige aannames in plaats van echte causale en temporale redenering.

Diagnostisch Hulpmiddel: De benchmark biedt een noodzakelijk instrument om de ware temporale intelligentie van AI-systemen te meten, los van de "illusie" van prestaties op minder strenge benchmarks.
Toekomstige Ontwikkeling: De resultaten wijzen erop dat het simpelweg vergroten van modelgrootte of het toevoegen van meer frames niet de oplossing is. Er is een fundamentele doorbraak nodig in de architectuur om temporale logica en fysieke dynamiek te modelleren.
Toepassingen: Een beter temporale begrip is cruciaal voor veilige en betrouwbare toepassingen in robotica, autonoom rijden en assistieve technologieën, waar het begrijpen van "wat er gebeurt" en "hoe het gebeurt" levensbelangrijk kan zijn.

De dataset en code zijn beschikbaar gesteld om reproducible onderzoek te faciliteren en de ontwikkeling van modellen met echt temporale logica te stimuleren.

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

1. Het Probleem: De "Foto-Blindheid"

2. De Oplossing: TimeBlind (Het "Tijds-Testje")

3. De Resultaten: De Robots Struikelen

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: TimeBlind Benchmark

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction