Can Vision-Language Models Solve the Shell Game?

Dit paper introduceert VET-Bench, een diagnostische test om het tekort aan objecttracking in Vision-Language Models bloot te leggen, en presenteert SGCoT, een methode die door het genereren van expliciete objecttrajecto's de prestaties op deze taak tot boven de 90% brengt.

Tiedong Liu, Wee Sun Lee

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Schelpenpoker voor AI: Waarom Robots de "Koffie met de Koffie" niet kunnen volgen

Stel je voor dat je een spelletje speelt met drie identieke kopjes. Je doet een balletje onder het middelste kopje. Dan wisselen de kopjes razendsnel van plek. Vervolgens vraag je aan iemand: "Onder welk kopje zit het balletje nu?"

Voor een mens is dit spelletje, ook wel bekend als de "Shell Game" of "Koffie met de Koffie", kinderlijk eenvoudig. Je ogen en je brein werken samen om het balletje te volgen. Maar voor de slimste kunstmatige intelligenties (AI) van vandaag is dit een nachtmerrie.

Dit is waar het nieuwe onderzoek van Tiedong Liu en Wee Sun Lee over gaat. Ze hebben ontdekt dat deze AI-modellen eigenlijk "blind" zijn voor beweging als de objecten er precies hetzelfde uitzien.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Kopieerplaat" van de AI

De onderzoekers hebben ontdekt dat de huidige AI-modellen (zoals Gemini of Qwen) eigenlijk luie leerlingen zijn. Als ze een video bekijken, kijken ze vaak niet echt naar de beweging van het balletje. In plaats daarvan zoeken ze naar knooppunten of knooppunten (zoals een vlekje op een kopje, of een transparant kopje waar je doorheen kunt kijken).

  • De Analogie: Stel je voor dat je een identieke kloon van jezelf ziet. Als je de kloon ziet, weet je dat het jij bent. Maar als je drie exacte klonen ziet die van plek wisselen, en je probeert te volgen wie wie is, moet je echt kijken naar hun beweging. De AI doet alsof ze een foto bekijkt in plaats van een film. Ze proberen het balletje te herkennen aan hoe het eruitziet, niet aan waar het naartoe gaat.

2. De Nieuwe Test: VET-Bench (De "Echte" Test)

De onderzoekers hebben een nieuwe test ontwikkeld genaamd VET-Bench. Ze hebben een synthetische wereld gecreëerd waar:

  • Alle kopjes er exact hetzelfde uitzien (geen vlekjes, geen transparantie).
  • De enige manier om het balletje te vinden, is door te kijken hoe het zich verplaatst.

Het resultaat? De slimste AI's scoorden net zo goed als een aap die willekeurig een kopje kiest (ongeveer 33% kans). Ze konden het balletje niet volgen. Het was alsof ze de film in slow-motion keken en dan de beelden door elkaar haalden.

3. Waarom lukt het niet? (De Theorie)

De onderzoekers hebben wiskundig bewezen dat dit een fundamenteel probleem is.

  • De Vergelijking: Stel je voor dat je een trein volgt die door een doolhof rijdt. Als de trein elke seconde van baan wisselt, moet je constant je hoofd draaien om te zien waar hij is.
  • De huidige AI-modellen zijn gebouwd als een statische fotolijst. Ze zijn geweldig in het herkennen van objecten op één foto, maar ze zijn niet goed in het "vasthouden" van een object terwijl het beweegt. Ze hebben geen intern geheugen dat zegt: "Dit was het balletje, nu is het hier, en nu daar." Zonder tussenstappen (zoals een mens die zegt: "Oké, het ging naar links, toen naar rechts...") raken ze de draad kwijt.

4. De Oplossing: SGCoT (De "Stap-voor-Stap" Methode)

Hoe hebben ze dit opgelost? Ze hebben de AI niet dwingen om direct het antwoord te geven. In plaats daarvan hebben ze de AI geleerd om eerst een verhaal te schrijven over de beweging.

Ze noemen dit SGCoT (Spatiotemporal Grounded Chain-of-Thought).

  • De Analogie: Stel je voor dat je een kind vraagt waar de bal is. Het kind zegt direct: "Links!" (en heeft het fout).
    De onderzoekers hebben het kind geleerd om eerst te zeggen: "Oké, ik zie de bal onder het middelste kopje. Dan wisselen links en middel. De bal gaat nu naar links. Dan wisselen middel en rechts..."
    Pas na dit verhaal geeft het kind het antwoord.

Door de AI te trainen om deze "bewegingsverhalen" (trajecten) expliciet te genereren, veranderden ze de taak van "gokken" naar "redeneren".

5. Het Resultaat: Van 33% naar 91%

Toen ze een model (Molmo2) trainden om eerst deze bewegingsverhalen te schrijven, gebeurde er magie:

  • De score sprong van 33% (willekeurig gokken) naar 91%.
  • De AI kon nu de "Shell Game" winnen, zelfs zonder externe hulpmiddelen.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat AI's nog niet echt "zien" zoals mensen. Ze zijn goed in het herkennen van beelden, maar slecht in het volgen van verhalen in de tijd.

  • De Les: Als we willen dat robots echt meedoen aan sporten, auto's besturen of complexe spelletjes spelen, moeten we ze niet alleen leren wat ze zien, maar ook hoe dingen bewegen. We moeten ze leren om een "verhaal" te vertellen over de beweging voordat ze een beslissing nemen.

Kortom: AI's zijn nu net iemand die een film kijkt met de ogen dicht en alleen naar de geluiden luistert. Met deze nieuwe methode leren we ze om hun ogen open te houden en de beweging daadwerkelijk te volgen.