Vision Language Models Cannot Reason About Physical Transformation

Each language version is independently generated for its own context, not a direct translation.

De "Magische" Spiegel die niet kan tellen: Waarom AI nog steeds niet begrijpt hoe de wereld werkt

Stel je voor dat je een magische spiegel hebt die alles kan zien en beantwoorden. Als je er een foto van een hond in houdt, zegt hij: "Dat is een hond." Als je een foto van een regenboog laat zien, zegt hij: "Kijk, een regenboog!" Deze spiegel is heel slim, maar er is een groot probleem: hij begrijpt niet hoe dingen veranderen terwijl ze er nog steeds hetzelfde uitzien.

Dit is precies wat een nieuw onderzoek laat zien over Vision Language Models (VLMs). Dit zijn de slimme AI's die beelden en tekst kunnen begrijpen (zoals de modellen die nu op je telefoon of computer zitten). De onderzoekers hebben ontdekt dat deze AI's, hoe slim ze ook lijken, niet echt begrijpen wat er gebeurt als je iets verplaatst, uitrekt of in een ander vat giet.

Hier is het verhaal, vertaald in alledaags taal:

1. Het Proefje: De "Magische" Waterbeker

Om dit te testen, hebben de onderzoekers een nieuw spelletje bedacht, genaamd Conservation-Bench. Het is gebaseerd op een klassiek proefje uit de kinderpsychologie (van de man Piaget).

Het scenario: Je hebt twee glazen met evenveel water. Je giet het water uit het ene glas (dat kort en breed is) naar een ander glas (dat lang en smal is).
De vraag: "Is er nu nog steeds evenveel water?"
Het menselijke antwoord: Een kind dat ouder is dan 7 jaar, en een volwassene, zegt direct: "Ja, natuurlijk! Het water is alleen maar verplaatst, er is niets bijgekomen of verdwenen."
Het AI-antwoord: De slimste AI's van vandaag zeggen vaak: "Nee, het water is verdwenen" of "Nee, er is meer water," omdat het water in het lange glas er hoger uitziet. Ze worden bedrogen door het uiterlijk, niet door de logica.

2. De Grote Teleurstelling: 112 Slimme Robots

De onderzoekers hebben 112 verschillende AI-modellen getest. Ze lieten ze video's zien van dingen die veranderden:

Munten die uit elkaar werden geschoven (het aantal blijft hetzelfde, maar de rij wordt langer).
Speeldeeg dat platgedrukt werd (het gewicht blijft hetzelfde, maar de vorm verandert).
Rietjes die werden verschoven (de lengte blijft hetzelfde).

Het resultaat? De meeste AI's faalden. Ze scoorden nauwelijks beter dan als ze een gokje hadden gedaan (50/50). Ze konden de "magie" van het behoud van hoeveelheid niet doorgronden.

3. Waarom doen ze dit? De "Goocheltruc" van de AI

De onderzoekers ontdekten een grappig, maar zorgwekkend geheim. De AI's zijn eigenlijk slimme gokkers die op tekstrecepten vertrouwen, in plaats van echt te kijken.

De tekst-truc: Als je de AI alleen tekst geeft (zonder plaatjes) en vraagt: "Giet je water in een ander glas, verandert de hoeveelheid dan?", zegt de AI vaak: "Nee, dat blijft hetzelfde." Dit is een leerboek-antwoord. Ze weten het woord "behoud" (conservation) uit hun training.
De plaatjes-valstrik: Zodra je echter de video of foto toevoegt, gaat de AI in paniek. Ze kijken naar het beeld (het water staat hoger!) en vergeten hun tekstkennis. Ze laten zich leiden door wat ze zien, in plaats van wat ze weten.

Het is alsof je iemand vraagt: "Is 2 + 2 gelijk aan 4?" Ze zeggen "Ja". Maar als je ze een foto toont van twee appels en nog twee appels, en je zegt: "Kijk, ze lijken nu groter!", dan beginnen ze te twijfelen en zeggen ze: "Misschien is het 5?" Ze verliezen hun hoofd door de visuele truc.

4. Meer beelden helpen niet

Je zou denken: "Als we de AI meer beelden geven, misschien dan?"

Gaven we ze 3 beelden? Faalden.
Gaven we ze 16 beelden (een snelle video)? Faalden.
Gaven we ze een heel duidelijke instructie: "Kijk goed hoe het water stroomt!"? Faalden.

Het helpt niet. De AI's hebben een fundamenteel probleem: ze kunnen niet volgen hoe een object verandert terwijl het zijn identiteit behoudt. Ze zien een reeks losse foto's, maar geen doorlopend verhaal.

5. Wat betekent dit voor de toekomst?

Dit onderzoek is een grote rode vlag voor de toekomst van robots en AI in de echte wereld.

Stel je een robot voor die een keuken moet schoonmaken. Als de robot niet begrijpt dat een glas water dat je leegtapt nog steeds "water" is, of dat een doos die je plat duwt nog steeds dezelfde inhoud heeft, kan hij:

Een glas breken omdat hij denkt dat het leeg is.
Een taart "opeten" terwijl hij denkt dat hij hem alleen maar plat duwt.

De conclusie:
Onze huidige AI's zijn als zeer slimme kinderen die alleen uit hun hoofd kunnen leren, maar nog niet begrijpen hoe de wereld werkt. Ze kunnen feiten opzoeken en plaatjes herkennen, maar ze missen de "buikgevoel"-kennis van de fysieke wereld. Ze weten niet dat als je iets verplaatst, het er nog steeds is.

Om echte robots te bouwen die veilig in onze huizen kunnen werken, moeten we AI's leren om niet alleen te kijken, maar om te begrijpen dat de wereld stabiel blijft, zelfs als het er even anders uitziet. Tot die tijd moeten we voorzichtig zijn met het vertrouwen op AI voor taken die fysieke logica vereisen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Vision Language Models kunnen niet redeneren over fysieke transformaties

Auteurs: Dezhi Luo, Yijiang Li, et al. (Universiteit van Michigan, UC San Diego, Berkeley, enz.)

1. Het Probleem

Hoewel Vision Language Models (VLM's) indrukwekkende prestaties laten zien in perceptie en redenering, is het onduidelijk of ze een fundamenteel begrip hebben van de fysieke wereld, specifiek het vermogen om fysieke transformaties te begrijpen.

Kernvraag: Kunnen VLM's begrijpen dat bepaalde fysieke grootheden (zoals volume, aantal, lengte) invariant blijven (behouden worden) ondanks visuele veranderingen in vorm of positie?
Huidige tekortkomingen: Bestaande benchmarks focussen vaak op statische scènes, video-generatie of het tellen van objecten. Ze testen niet of modellen een transformatie-invariante representatie kunnen vormen, wat essentieel is voor robuust redeneren in dynamische, fysiek verankerde omgevingen (zoals robotica).

2. Methodologie: ConservationBench

De auteurs introduceren ConservationBench, een cognitief onderbouwde benchmark om het vermogen tot behoud (conservation) bij VLM's te evalueren.

Opzet: De benchmark bestaat uit videobased taken die vier fundamentele kwantitatieve eigenschappen testen:
1. Aantal (Number): Verspreiding van munten zonder toevoeging/verwijdering.
2. Lengte (Length): Verplaatsing van strohalmen zonder lengteverandering.
3. Volume: Vloeistof overgieten in een ander vormige beker.
4. Grootte/Massa (Size): Het herschikken van klei (bijv. bal naar plaat).
Twee soorten taken:
- Behoud-taken (Conserving): De fysieke hoeveelheid blijft gelijk ondanks visuele verandering.
- Niet-behoud-taken (Non-conserving controls): De hoeveelheid verandert expliciet tijdens de transformatie, terwijl irrelevante kenmerken gelijk blijven. Dit dient om te controleren of modellen niet gewoon een "default" antwoord geven (bijv. altijd "het blijft gelijk").
Experimentele Variaties:
- Dataset: 384 unieke video's (192 behoud + 192 controle), resulterend in 23.040 proeven.
- Frequentie: Variatie in het aantal frames (3, 5, 7, 9, 16) om temporele resolutie te testen.
- Sampling-strategieën: Uniforme sampling, menselijke selectie (annotatoren), en model-gestuurde selectie (SeViLA).
- Prompting: Verschillende instructies (Direct, Sequentieel, Chain-of-Thought, Continu).
Evalueringsgroep: 112 verschillende VLM's (zowel gesloten als open-source, van 1B tot 76B parameters).

3. Belangrijkste Resultaten

De resultaten tonen een systematisch falen van huidige VLM's in fysiek redeneren:

Prestatie op kanseniveau: De meeste modellen presteren slechts marginaal boven het willekeurige niveau (33,3%). De gemiddelde nauwkeurigheid ligt tussen 20% en 69%, terwijl mensen >98% halen.
Negatieve correlatie (Systematische Bias): Er is een sterke negatieve correlatie ( $r \approx -0.51$ $r \approx - 0.51$ ) tussen prestaties op behoud-taken en niet-behoud-taken.
- Modellen die goed doen op behoud-taken, doen vaak slecht op controle-taken. Dit suggereert dat ze niet redeneren, maar een tekstuele prior gebruiken die "behoud" (invariantie) favoriet maakt, ongeacht de visuele bewijzen.
Visuele interferentie:
- In een controlexperiment met lege afbeeldingen (alleen tekst) presteerden modellen beter op behoud-taken (85,7%) dan met echte visuele input (~60%).
- Dit bewijst dat visuele content de modellen actief verstoort; ze negeren de correcte tekstuele prior ("het blijft gelijk") en vervangen deze door foutieve visuele verwerking.
Geen voordeel door meer frames of prompts:
- Het verhogen van de temporele resolutie (meer frames) helpt niet.
- Chain-of-Thought (CoT) prompting maakt de prestaties zelfs slechter voor sommige taken, waarschijnlijk omdat het de afhankelijkheid van broos heuristisch redeneren versterkt.
- Menselijk geselecteerde frames presteerden niet beter dan uniforme sampling; bij complexe taken (volume/grootte) presteerde uniforme sampling zelfs beter, wat suggereert dat modellen geen strategische frame-selectie kunnen toepassen.
Schaalvergroting helpt niet: Er is geen significante relatie tussen modelgrootte (parameters) en het vermogen tot behoud-redeneren ( $R^2 = 0.019$ ). Grotere modellen worden niet beter in dit specifieke fysieke inzicht.

4. Belangrijkste Bijdragen

ConservationBench: Een nieuwe, rigoureuze benchmark die specifiek ontworpen is om het vermogen van VLM's te testen om transformatie-invariante eigenschappen te begrijpen, met een sterke focus op controletaken om "shortcut learning" te voorkomen.
Empirisch Bewijs van Gebrek aan Fysiek Inzicht: Het paper levert overtuigend bewijs dat huidige VLM's geen echte representatie van fysieke transformaties hebben. Ze vertrouwen op tekstuele biases en falen wanneer visuele informatie in strijd is met deze biases.
Ontmaskeren van "Illusie van Begrip": De studie toont aan dat hoge scores op andere benchmarks mogelijk het gevolg zijn van heuristieken en niet van fundamenteel fysiek redeneren. Het falen in behoud-taken (een basisvaardigheid bij kinderen volgens Piaget) impliceert dat hogere-orde fysiek redeneren onmogelijk is zonder deze basis.

5. Betekenis en Conclusie

De bevindingen hebben grote implicaties voor de ontwikkeling van Embodied AI (robotica, autonome systemen). Als modellen niet kunnen begrijpen dat objecten hun eigenschappen behouden tijdens beweging of vormverandering, kunnen ze niet betrouwbaar opereren in de echte wereld.

Fundamentele Beperking: Het probleem ligt niet in het ontbreken van data of schaal, maar in de architectuur van VLM's die geen mechanisme hebben voor het bouwen van stabiele, transformatie-invariante objectrepresentaties.
Toekomstige Richting: Er is behoefte aan modellen die dieper geworteld zijn in sensorimotorische ervaringen en die mechanisch in staat zijn om sequentiële visuele informatie te integreren tot een coherent fysiek wereldmodel. ConservationBench dient als een diagnostische test ("sanity check") om te bepalen of toekomstige modellen dit fundamentele gat overbruggen.

Kortom: Huidige Vision Language Models "zien" wel, maar ze begrijpen de fysieke dynamiek van verandering niet.

Vision Language Models Cannot Reason About Physical Transformation

1. Het Proefje: De "Magische" Waterbeker

2. De Grote Teleurstelling: 112 Slimme Robots

3. Waarom doen ze dit? De "Goocheltruc" van de AI

4. Meer beelden helpen niet

5. Wat betekent dit voor de toekomst?

Titel: Vision Language Models kunnen niet redeneren over fysieke transformaties

1. Het Probleem

2. Methodologie: ConservationBench

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Betekenis en Conclusie

Meer zoals dit

A convergence theory for differentiable non-monotone schemes for fully nonlinear parabolic equations

Forest structure in epigenetic landscapes

Walking through Doors is Hard, even without Staircases: Universality and PSPACE-hardness of Planar Door Gadgets

A Linear-Time Algorithm for Steady-State Analysis of Electromigration in General Interconnects

Normalization for multimodal type theory