VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Dit paper introduceert VOILA, een nieuw benchmark voor het evalueren van het perceptieve begrip en het abstracte redeneren van multimodale grote taalmodellen, waarbij blijkt dat deze modellen significant moeite hebben met het begrijpen van inter-image relaties en analogieën, ondanks verbeteringen door strategieën zoals 'least-to-most prompting'.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎨 VOILA: De "Schaakpartij" voor AI's

Stel je voor dat je een kunstenaar bent die een raadsel moet oplossen. Je krijgt drie schilderijen te zien:

  1. Een foto van twee honden die zwemmen.
  2. Een foto van twee katten die zwemmen.
  3. Een foto van vier konijnen die zwemmen.

De vraag is: "Als honden naar katten gaan, wat gebeurt er dan met de konijnen?"

Een slimme mens zou zeggen: "Ah, de dieren zijn veranderd, maar het aantal is verdubbeld (van 2 naar 4). Dus het antwoord is: vier konijnen die zwemmen."

Dit is precies wat VOILA doet. Het is een nieuwe test (een benchmark) die onderzoekers van de Arizona State University hebben bedacht om te kijken of moderne kunstmatige intelligentie (AI) echt slim is, of dat het alleen maar goed kan gokken.

🧠 Het Probleem: De "Meerkeuzeval"

Tot nu toe werden AI's getest met meerkeuzevragen. Het is alsof je een kind een puzzel geeft en zegt: "Kies het juiste antwoord uit A, B, C of D."

  • Het nadeel: Een slimme AI kan soms het juiste antwoord raden zonder echt te begrijpen waarom het goed is. Het is alsof je een auto bestuurt die alleen maar de snelste route naar de supermarkt kent, maar niet begrijpt hoe het sturen werkt.

De onderzoekers wilden weten: Kan de AI zelf de oplossing bedenken, zonder dat we haar de opties geven?

🚀 De Oplossing: VOILA (Visual Analogy)

VOILA is een test waarbij de AI moet creëren, niet alleen kiezen.

  • De taak: De AI krijgt drie plaatjes en moet een vierde plaatje maken dat logisch past bij de eerste drie.
  • De truc: Soms zitten er afleidingen in de plaatjes (zoals een vreemde kleur of een extra voorwerp op de achtergrond). De AI moet die afleidingen negeren en alleen kijken naar de echte logica (bijvoorbeeld: "het aantal dieren verdubbelt").

Dit is als een detective die een moord moet oplossen. De AI moet niet alleen kijken naar de verdachte, maar ook begrijpen wie de echte dader is en wie alleen maar een onschuldig voorbijganger is.

📉 Wat bleek er? (De Teleurstellende Resultaten)

De onderzoekers hebben de beste AI's ter wereld (zoals GPT-4o en LLaMa) op deze test gezet. Het resultaat? Ze zakten door de bodem.

  • Mensen: Haalden ongeveer 70% goed. Ze snappen de logica direct.
  • De beste AI (GPT-4o): Haalde slechts 29% goed op de makkelijke versie en nog minder op de moeilijke versie.
  • Andere AI's: Haalden soms zelfs minder dan 13%.

De vergelijking:
Het is alsof je een Formule 1-auto (de AI) laat racen op een simpele fietspad. De auto heeft een enorme motor (veel rekenkracht), maar hij weet niet hoe hij moet fietsen. Hij kan prachtige foto's beschrijven (hij weet dat er een hond op staat), maar hij faalt volledig als hij moet begrijpen waarom de hond van positie verandert.

🔍 Waarom lukt het niet?

De onderzoekers ontdekten drie grote problemen:

  1. Ze zien de afleiding: Als er een afleidingsmanoeuvre in het plaatje zit (bijvoorbeeld een rode ballon die niks met de logica te maken heeft), raakt de AI in de war. Ze denken: "Oh, de ballon is rood, dus het antwoord moet ook rood zijn!" Terwijl de logica niets met de kleur te maken heeft.
  2. Ze kunnen niet "stap voor stap" denken: Als je de AI vraagt om direct het antwoord te geven, faalt ze. Maar als je haar zegt: "Eerst beschrijf je de plaatjes, dan zoek je het patroon, en pas daarna maak je het antwoord," gaat het iets beter. Dit noemen ze "Least-to-Most" prompting (van makkelijk naar moeilijk). Het is alsof je een kind leert te fietsen: eerst op een loopfiets, dan met wieltjes, en pas daarna zonder.
  3. Plaatjes vs. Tekst: Als je de AI de plaatjes laat zien, faalt hij. Als je de AI alleen de tekst over de plaatjes geeft (bijvoorbeeld: "Er zijn twee honden die zwemmen"), presteert hij veel beter. Dit betekent dat de AI goed kan lezen, maar slecht kan zien en begrijpen wat er in een plaatje gebeurt.

💡 De Conclusie

VOILA laat zien dat we nog ver verwijderd zijn van een AI die echt "menselijk" kan denken.

  • Huidige AI's zijn als briljante parkeerautomaten: ze kunnen perfect een auto parkeren (een plaatje beschrijven), maar ze kunnen niet zelf een route plannen door een stad (relaties tussen plaatjes begrijpen).
  • Om echt slim te worden, moeten AI's leren om niet alleen te kijken, maar om te redeneren en patronen te herkennen, zelfs als er afleidingen zijn.

Kortom: De AI's zijn nog steeds kinderen die leren fietsen, en VOILA is de test om te zien of ze eindelijk los kunnen laten van het loopfietsje. Tot nu toe vallen ze nog vaak. 🚲🤖

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →