Each language version is independently generated for its own context, not a direct translation.
Samenvatting: Waarom VLM's (Visuele Taalmodellen) nog steeds "links" en "rechts" verwarren
Stel je voor dat je een superintelligente robot hebt die alles kan lezen en begrijpen, maar die als een peuter door de kamer loopt. Hij ziet een stoel en een tafel, maar hij heeft geen flauw idee of de stoel links of rechts van de tafel staat, of dat de camera naar links draait.
Dit is precies wat de auteurs van dit paper, LRR-Bench, hebben ontdekt. Ze hebben een nieuwe test ontwikkeld om te kijken hoe goed moderne AI-modellen (die zowel naar plaatjes kijken als tekst begrijpen) echt ruimtelijk inzicht hebben.
Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:
1. Het Probleem: De "Blinde" Supercomputer
Vandaag de dag zijn AI-modellen (zoals GPT-4 of Qwen) geweldig in het beschrijven van een foto. Ze kunnen zeggen: "Hier zie ik een hond." Maar als je ze vraagt: "Draait de hond naar links of rechts?" of "Is de hond voor of achter de boom?", raken ze in de war.
De auteurs zeggen: "Het is alsof je iemand een kaart geeft die perfect is, maar die persoon heeft geen kompas en geen gevoel voor diepte."
2. De Oplossing: Een "Minecraft" en "AI-Schilderij" Test
Om dit te testen, hebben de onderzoekers geen echte foto's van de wereld gebruikt (want dan zou de AI de antwoorden misschien al uit zijn geheugen kennen). In plaats daarvan bouwden ze een volledig kunstmatige test:
- De Schilderijen (Absolute Positie): Ze gebruikten een AI-schilderijtool (Diffusion Model) om plaatjes te maken met specifieke instructies, zoals "een motorfiets in de linkeronderhoek". Vervolgens keken ze of de AI echt zag dat de motor daar zat, of dat hij maar wat radelde.
- De Videospelletjes (3D Ruimte): Voor de moeilijkere vragen (beweging en rotatie) gebruikten ze Minecraft. Ze lieten de camera ronddraaien of een schaapje bewegen. Omdat het spelletje is gebouwd op strikte wiskundige regels, wisten ze precies wat er gebeurde. Als de AI dit niet snapte, was het echt een tekortkoming in het "ruimtelijk inzicht" en niet alleen een probleem met het herkennen van de beelden.
3. De Uitdagingen: Van "Links/Rechts" tot "Roteren"
De test bestaat uit twee grote categorieën, die we kunnen vergelijken met twee verschillende vaardigheden:
Categorie A: De Vaste Positie (2D)
- Vergelijking: Kijk naar een foto en zeg: "Is de kat links of rechts?"
- Resultaat: De AI doet het hier redelijk goed, net als een kind dat net leren lezen heeft. Maar zodra je het complexer maakt (bijvoorbeeld: "Kijk naar deze drie plaatjes in een rij en zeg of de volgorde klopt"), zakken de scores dramatisch.
Categorie B: De 3D Ruimte (Beweging & Rotatie)
- Vergelijking: Stel je voor dat je in een auto zit en om je heen kijkt. Als de auto naar links draait, lijken de bomen naar rechts te bewegen.
- Resultaat: Hier faalt de AI totaal. Het is alsof je een mens vraagt om de wereld omver te draaien zonder dat ze duizelig worden. De AI kan niet begrijpen of de camera draait of dat het object beweegt. In sommige taken scoorden de slimste AI-modellen nabij nul.
4. De Verassende Bevindingen
De onderzoekers deden een aantal verrassende ontdekkingen:
- Hoe groter, hoe niet beter: Je zou denken dat een AI met meer "hersencellen" (meer parameters) slimmer is. Maar nee! Soms presteerden de gigantische modellen slechter dan de kleinere. Alsof een professor soms vergeten is hoe je een deur opent, terwijl een kind het wel weet.
- Nadenken helpt niet altijd: Mensen denken vaak: "Als ik de AI vraag om eerst na te denken (Chain of Thought) voordat hij antwoordt, wordt hij slimmer." Voor deze ruimtelijke taken is dat niet waar. Soms maakt het "nadenken" de AI alleen maar verwarder en hallucineert hij meer. Het is alsof je iemand vraagt om een ingewikkeld wiskundig probleem op te lossen, maar door te veel na te denken, vergeet hij dat 2+2=4.
- Mens vs. Machine: Mensen deden bijna perfect mee (90-100% goed). De beste AI-modellen haalden alleen maar een goed cijfer op de aller-eenvoudigste vragen. Bij de moeilijke vragen scoorden ze vaak lager dan een raden met een muntje.
5. Conclusie: We Hebben Nog Een Lange Weg Te Gaan
De boodschap van dit paper is duidelijk: AI is nog niet klaar voor de echte wereld.
Als we AI willen gebruiken voor zelfrijdende auto's of robots die dingen moeten pakken, moeten ze niet alleen kunnen "zien", maar ze moeten ook echt begrijpen hoe de wereld in elkaar zit. Ze moeten snappen wat "links", "rechts", "voor", "achter", "rotatie" en "beweging" betekenen in een 3D-ruimte.
Op dit moment is de AI als een zeer geleerde bibliothecaris die alle boeken kent, maar als je hem vraagt om een boek van de bovenste plank te halen, hij de trap niet kan beklimmen of niet weet welke kant de ladder op moet.
Kortom: We hebben een nieuwe test (LRR-Bench) gemaakt die laat zien dat AI's nog steeds worstelen met de basis van ruimtelijk inzicht, en dat "slimmer maken" van de modellen op de huidige manier niet direct de oplossing is.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.