Vision Language Models Cannot Reason About Physical Transformation

De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De "Magische" Spiegel die niet kan tellen: Waarom AI nog steeds niet begrijpt hoe de wereld werkt

Stel je voor dat je een magische spiegel hebt die alles kan zien en beantwoorden. Als je er een foto van een hond in houdt, zegt hij: "Dat is een hond." Als je een foto van een regenboog laat zien, zegt hij: "Kijk, een regenboog!" Deze spiegel is heel slim, maar er is een groot probleem: hij begrijpt niet hoe dingen veranderen terwijl ze er nog steeds hetzelfde uitzien.

Dit is precies wat een nieuw onderzoek laat zien over Vision Language Models (VLMs). Dit zijn de slimme AI's die beelden en tekst kunnen begrijpen (zoals de modellen die nu op je telefoon of computer zitten). De onderzoekers hebben ontdekt dat deze AI's, hoe slim ze ook lijken, niet echt begrijpen wat er gebeurt als je iets verplaatst, uitrekt of in een ander vat giet.

Hier is het verhaal, vertaald in alledaags taal:

1. Het Proefje: De "Magische" Waterbeker

Om dit te testen, hebben de onderzoekers een nieuw spelletje bedacht, genaamd Conservation-Bench. Het is gebaseerd op een klassiek proefje uit de kinderpsychologie (van de man Piaget).

  • Het scenario: Je hebt twee glazen met evenveel water. Je giet het water uit het ene glas (dat kort en breed is) naar een ander glas (dat lang en smal is).
  • De vraag: "Is er nu nog steeds evenveel water?"
  • Het menselijke antwoord: Een kind dat ouder is dan 7 jaar, en een volwassene, zegt direct: "Ja, natuurlijk! Het water is alleen maar verplaatst, er is niets bijgekomen of verdwenen."
  • Het AI-antwoord: De slimste AI's van vandaag zeggen vaak: "Nee, het water is verdwenen" of "Nee, er is meer water," omdat het water in het lange glas er hoger uitziet. Ze worden bedrogen door het uiterlijk, niet door de logica.

2. De Grote Teleurstelling: 112 Slimme Robots

De onderzoekers hebben 112 verschillende AI-modellen getest. Ze lieten ze video's zien van dingen die veranderden:

  • Munten die uit elkaar werden geschoven (het aantal blijft hetzelfde, maar de rij wordt langer).
  • Speeldeeg dat platgedrukt werd (het gewicht blijft hetzelfde, maar de vorm verandert).
  • Rietjes die werden verschoven (de lengte blijft hetzelfde).

Het resultaat? De meeste AI's faalden. Ze scoorden nauwelijks beter dan als ze een gokje hadden gedaan (50/50). Ze konden de "magie" van het behoud van hoeveelheid niet doorgronden.

3. Waarom doen ze dit? De "Goocheltruc" van de AI

De onderzoekers ontdekten een grappig, maar zorgwekkend geheim. De AI's zijn eigenlijk slimme gokkers die op tekstrecepten vertrouwen, in plaats van echt te kijken.

  • De tekst-truc: Als je de AI alleen tekst geeft (zonder plaatjes) en vraagt: "Giet je water in een ander glas, verandert de hoeveelheid dan?", zegt de AI vaak: "Nee, dat blijft hetzelfde." Dit is een leerboek-antwoord. Ze weten het woord "behoud" (conservation) uit hun training.
  • De plaatjes-valstrik: Zodra je echter de video of foto toevoegt, gaat de AI in paniek. Ze kijken naar het beeld (het water staat hoger!) en vergeten hun tekstkennis. Ze laten zich leiden door wat ze zien, in plaats van wat ze weten.

Het is alsof je iemand vraagt: "Is 2 + 2 gelijk aan 4?" Ze zeggen "Ja". Maar als je ze een foto toont van twee appels en nog twee appels, en je zegt: "Kijk, ze lijken nu groter!", dan beginnen ze te twijfelen en zeggen ze: "Misschien is het 5?" Ze verliezen hun hoofd door de visuele truc.

4. Meer beelden helpen niet

Je zou denken: "Als we de AI meer beelden geven, misschien dan?"

  • Gaven we ze 3 beelden? Faalden.
  • Gaven we ze 16 beelden (een snelle video)? Faalden.
  • Gaven we ze een heel duidelijke instructie: "Kijk goed hoe het water stroomt!"? Faalden.

Het helpt niet. De AI's hebben een fundamenteel probleem: ze kunnen niet volgen hoe een object verandert terwijl het zijn identiteit behoudt. Ze zien een reeks losse foto's, maar geen doorlopend verhaal.

5. Wat betekent dit voor de toekomst?

Dit onderzoek is een grote rode vlag voor de toekomst van robots en AI in de echte wereld.

Stel je een robot voor die een keuken moet schoonmaken. Als de robot niet begrijpt dat een glas water dat je leegtapt nog steeds "water" is, of dat een doos die je plat duwt nog steeds dezelfde inhoud heeft, kan hij:

  • Een glas breken omdat hij denkt dat het leeg is.
  • Een taart "opeten" terwijl hij denkt dat hij hem alleen maar plat duwt.

De conclusie:
Onze huidige AI's zijn als zeer slimme kinderen die alleen uit hun hoofd kunnen leren, maar nog niet begrijpen hoe de wereld werkt. Ze kunnen feiten opzoeken en plaatjes herkennen, maar ze missen de "buikgevoel"-kennis van de fysieke wereld. Ze weten niet dat als je iets verplaatst, het er nog steeds is.

Om echte robots te bouwen die veilig in onze huizen kunnen werken, moeten we AI's leren om niet alleen te kijken, maar om te begrijpen dat de wereld stabiel blijft, zelfs als het er even anders uitziet. Tot die tijd moeten we voorzichtig zijn met het vertrouwen op AI voor taken die fysieke logica vereisen.