Can Vision-Language Models Solve the Shell Game?

Each language version is independently generated for its own context, not a direct translation.

De Schelpenpoker voor AI: Waarom Robots de "Koffie met de Koffie" niet kunnen volgen

Stel je voor dat je een spelletje speelt met drie identieke kopjes. Je doet een balletje onder het middelste kopje. Dan wisselen de kopjes razendsnel van plek. Vervolgens vraag je aan iemand: "Onder welk kopje zit het balletje nu?"

Voor een mens is dit spelletje, ook wel bekend als de "Shell Game" of "Koffie met de Koffie", kinderlijk eenvoudig. Je ogen en je brein werken samen om het balletje te volgen. Maar voor de slimste kunstmatige intelligenties (AI) van vandaag is dit een nachtmerrie.

Dit is waar het nieuwe onderzoek van Tiedong Liu en Wee Sun Lee over gaat. Ze hebben ontdekt dat deze AI-modellen eigenlijk "blind" zijn voor beweging als de objecten er precies hetzelfde uitzien.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Kopieerplaat" van de AI

De onderzoekers hebben ontdekt dat de huidige AI-modellen (zoals Gemini of Qwen) eigenlijk luie leerlingen zijn. Als ze een video bekijken, kijken ze vaak niet echt naar de beweging van het balletje. In plaats daarvan zoeken ze naar knooppunten of knooppunten (zoals een vlekje op een kopje, of een transparant kopje waar je doorheen kunt kijken).

De Analogie: Stel je voor dat je een identieke kloon van jezelf ziet. Als je de kloon ziet, weet je dat het jij bent. Maar als je drie exacte klonen ziet die van plek wisselen, en je probeert te volgen wie wie is, moet je echt kijken naar hun beweging. De AI doet alsof ze een foto bekijkt in plaats van een film. Ze proberen het balletje te herkennen aan hoe het eruitziet, niet aan waar het naartoe gaat.

2. De Nieuwe Test: VET-Bench (De "Echte" Test)

De onderzoekers hebben een nieuwe test ontwikkeld genaamd VET-Bench. Ze hebben een synthetische wereld gecreëerd waar:

Alle kopjes er exact hetzelfde uitzien (geen vlekjes, geen transparantie).
De enige manier om het balletje te vinden, is door te kijken hoe het zich verplaatst.

Het resultaat? De slimste AI's scoorden net zo goed als een aap die willekeurig een kopje kiest (ongeveer 33% kans). Ze konden het balletje niet volgen. Het was alsof ze de film in slow-motion keken en dan de beelden door elkaar haalden.

3. Waarom lukt het niet? (De Theorie)

De onderzoekers hebben wiskundig bewezen dat dit een fundamenteel probleem is.

De Vergelijking: Stel je voor dat je een trein volgt die door een doolhof rijdt. Als de trein elke seconde van baan wisselt, moet je constant je hoofd draaien om te zien waar hij is.
De huidige AI-modellen zijn gebouwd als een statische fotolijst. Ze zijn geweldig in het herkennen van objecten op één foto, maar ze zijn niet goed in het "vasthouden" van een object terwijl het beweegt. Ze hebben geen intern geheugen dat zegt: "Dit was het balletje, nu is het hier, en nu daar." Zonder tussenstappen (zoals een mens die zegt: "Oké, het ging naar links, toen naar rechts...") raken ze de draad kwijt.

4. De Oplossing: SGCoT (De "Stap-voor-Stap" Methode)

Hoe hebben ze dit opgelost? Ze hebben de AI niet dwingen om direct het antwoord te geven. In plaats daarvan hebben ze de AI geleerd om eerst een verhaal te schrijven over de beweging.

Ze noemen dit SGCoT (Spatiotemporal Grounded Chain-of-Thought).

De Analogie: Stel je voor dat je een kind vraagt waar de bal is. Het kind zegt direct: "Links!" (en heeft het fout).
De onderzoekers hebben het kind geleerd om eerst te zeggen: "Oké, ik zie de bal onder het middelste kopje. Dan wisselen links en middel. De bal gaat nu naar links. Dan wisselen middel en rechts..."
Pas na dit verhaal geeft het kind het antwoord.

Door de AI te trainen om deze "bewegingsverhalen" (trajecten) expliciet te genereren, veranderden ze de taak van "gokken" naar "redeneren".

5. Het Resultaat: Van 33% naar 91%

Toen ze een model (Molmo2) trainden om eerst deze bewegingsverhalen te schrijven, gebeurde er magie:

De score sprong van 33% (willekeurig gokken) naar 91%.
De AI kon nu de "Shell Game" winnen, zelfs zonder externe hulpmiddelen.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat AI's nog niet echt "zien" zoals mensen. Ze zijn goed in het herkennen van beelden, maar slecht in het volgen van verhalen in de tijd.

De Les: Als we willen dat robots echt meedoen aan sporten, auto's besturen of complexe spelletjes spelen, moeten we ze niet alleen leren wat ze zien, maar ook hoe dingen bewegen. We moeten ze leren om een "verhaal" te vertellen over de beweging voordat ze een beslissing nemen.

Kortom: AI's zijn nu net iemand die een film kijkt met de ogen dicht en alleen naar de geluiden luistert. Met deze nieuwe methode leren we ze om hun ogen open te houden en de beweging daadwerkelijk te volgen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Can Vision-Language Models Solve the Shell Game?" in het Nederlands.

Titel: Kan Vision-Language Models het Schelpspel Oplossen?

Auteurs: Tiedong Liu en Wee Sun Lee (National University of Singapore)

1. Het Probleem: Visuele Entiteitstracking als Bottleneck

Hoewel Vision-Language Models (VLMs) indrukwekkende prestaties leveren in algemene video-analyse en redeneren, blijft visuele entiteitstracking (het bijhouden van objecten in de tijd) een kritieke zwakte.

De "Schelp" (Shell Game): De auteurs gebruiken het klassieke schelpspel (een bal onder één van drie identieke kopjes die worden geschud) als diagnostische taak. Voor mensen is dit intuïtief, maar VLMs falen hierin.
De Illusie van Bestaande Benchmarks: Bestaande benchmarks zoals de Perception Test bevatten vaak visuele "shortcuts". Bijvoorbeeld, kopjes zijn niet altijd identiek (ze hebben unieke kenmerken) of transparant, waardoor modellen het antwoord kunnen raden door naar één enkel frame te kijken in plaats van de beweging over tijd te volgen.
Het Kernprobleem: Zonder deze visuele hints moeten modellen de entiteit uitsluitend volgen op basis van spatiotemporale continuïteit (beweging en positie over tijd). De auteurs tonen aan dat huidige state-of-the-art modellen hierbij presteren op het niveau van raden.

2. Methodologie

A. VET-Bench (Visual Entity Tracking Benchmark)

Om het probleem zuiver te isoleren, introduceerden de auteurs VET-Bench, een synthetische testomgeving.

Synthetische Data: Video's worden gegenereerd met three.js, waarbij objecten (kopjes of kaarten) visueel identiek zijn (zelfde kleur, textuur, materiaal).
Taakdefinitie: Het model moet bepalen onder welk object een specifiek item zich bevindt na een reeks verwisselingen (swaps).
Controles: De dataset elimineert statische hints. Er zijn geen transparante objecten en geen unieke kenmerken. De enige manier om het antwoord te vinden is door de beweging van frame tot frame te volgen.

B. Theoretische Analyse: NC1-Completeness

De auteurs analyseren de computationele complexiteit van visuele tracking.

Ze bewijzen dat het probleem van het bijhouden van $k$ ononderscheidbare objecten (voor $k \geq 5$ ) NC1-compleet is.
Implicatie voor Transformers: Fixed-depth transformers (de basis van huidige VLMs) behoren tot de circuitklasse $TC_0$ . Onder de aanname dat $TC_0 \subsetneq NC_1$ , zijn deze modellen fundamenteel beperkt in het oplossen van dergelijke taken zonder intermediate computation (tussenstappen). Zonder expliciete tussenstappen (Chain-of-Thought) kunnen ze de staat van het systeem niet effectief bijhouden.

C. SGCoT: Spatiotemporal Grounded Chain-of-Thought

Om de beperkingen van directe antwoorden te overwinnen, stellen de auteurs SGCoT voor.

Concept: In plaats van direct een antwoord te geven, genereert het model eerst een expliciete traject van het object als tussenstap.
Implementatie: Ze gebruiken het model Molmo2, dat sterk is getraind op objecttracking. Ze fine-tunen dit model met synthetische tekst-only data (geen video-input tijdens training) om het de volgende structuur te laten genereren:
1. Een <tracks>-tag met coördinaten $(x, y)$ op specifieke tijdstippen (bijv. elke 0,5 seconde).
2. Een logische redenering gebaseerd op deze coördinaten.
3. Het definitieve antwoord.
Efficiëntie: De training vereist geen video-input, alleen tekstuele beschrijvingen van de gegenereerde trajecten, wat de rekentijd drastisch verlaagt.

3. Resultaten

Prestaties van Bestaande Modellen

De auteurs evalueerden een breed scala aan modellen (Gemini-3-Pro, Qwen3-VL, GLM-4.6V, etc.) op VET-Bench.

Resultaat: Alle geteste modellen presteerden op of dicht bij het niveau van willekeurig raden (bijv. ~33% voor 3 kopjes).
Foutpatronen:
- Directe Antwoorden: Modellen gaven een antwoord zonder redenering.
- Grove Beschrijvingen: Modellen gaven een samenvatting ("de kopjes werden geschud") zonder de specifieke swaps te volgen.
- Hallucinaties: Zelfs sterke redeneringsmodellen (zoals Gemini-3-Pro) genereerden logisch correcte tekst, maar baseerden deze op foute visuele waarneming (bijv. een swap hallucineren die niet plaatsvond). Omdat elke stap afhankelijk is van de vorige, leidt één perceptiefout tot een verkeerd eindantwoord.

Prestaties van SGCoT

Het fine-tunen van Molmo2 met SGCoT leidde tot een state-of-the-art prestatie van meer dan 90% nauwkeurigheid op VET-Bench.
Dit bewijst dat VLMs de taak end-to-end kunnen oplossen zonder externe tools, mits ze worden aangespoord om expliciete spatiotemporale tussenstappen te genereren.

Theoretische Validatie

Experimenten toonden aan dat training alleen op directe antwoorden (zonder CoT) faalt, zelfs met voldoende trainingdata. De loss blijft stagneren op het niveau van raden, wat de theoretische voorspelling bevestigt dat directe mapping van video-tokens naar een eindlabel te complex is voor de expressiviteit van het model.

4. Belangrijkste Bijdragen

Identificatie van de Bottleneck: Het aantonen dat visuele tracking de beperkende factor is in huidige benchmarks en dat bestaande scores vaak worden opgeblazen door visuele shortcuts.
VET-Bench: De introductie van een strikte, synthetische benchmark die puur spatiotemporale perceptie eist.
Theoretisch Bewijs: Het bewijzen dat visuele tracking NC1-compleet is, wat de noodzaak van Chain-of-Thought voor transformers onderbouwt.
SGCoT Methode: Een efficiënte methode om modellen te leren objecttrajecten expliciet te genereren, wat leidt tot een dramatische verbetering in prestaties (>90%).

5. Betekenis en Toekomstperspectief

Dit werk is significant omdat het een fundamentele beperking in de architectuur van huidige VLMs blootlegt: het gebrek aan intrinsiek vermogen om staten over tijd te bijhouden zonder expliciete tussenstappen.

Voor Embodied AI: Voor robotica en autonome agenten is het vermogen om objecten in een dynamische omgeving te volgen cruciaal. Zonder dit vermogen kunnen agenten geen betrouwbare beslissingen nemen.
Richting voor Onderzoek: De resultaten suggereren dat toekomstige VLMs niet alleen groter moeten worden, maar ook moeten worden getraind om intermediere representaties (zoals trajecten) te genereren. SGCoT biedt een pad om dit te bereiken zonder de noodzaak van complexe externe tools.

Kortom, het paper concludeert dat VLMs het "schelpspel" niet kunnen winnen zolang ze alleen kijken naar statische frames of globale beschrijvingen; ze moeten leren "denken" in termen van beweging en coördinaten over tijd.