VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎨 VOILA: De "Schaakpartij" voor AI's

Stel je voor dat je een kunstenaar bent die een raadsel moet oplossen. Je krijgt drie schilderijen te zien:

Een foto van twee honden die zwemmen.
Een foto van twee katten die zwemmen.
Een foto van vier konijnen die zwemmen.

De vraag is: "Als honden naar katten gaan, wat gebeurt er dan met de konijnen?"

Een slimme mens zou zeggen: "Ah, de dieren zijn veranderd, maar het aantal is verdubbeld (van 2 naar 4). Dus het antwoord is: vier konijnen die zwemmen."

Dit is precies wat VOILA doet. Het is een nieuwe test (een benchmark) die onderzoekers van de Arizona State University hebben bedacht om te kijken of moderne kunstmatige intelligentie (AI) echt slim is, of dat het alleen maar goed kan gokken.

🧠 Het Probleem: De "Meerkeuzeval"

Tot nu toe werden AI's getest met meerkeuzevragen. Het is alsof je een kind een puzzel geeft en zegt: "Kies het juiste antwoord uit A, B, C of D."

Het nadeel: Een slimme AI kan soms het juiste antwoord raden zonder echt te begrijpen waarom het goed is. Het is alsof je een auto bestuurt die alleen maar de snelste route naar de supermarkt kent, maar niet begrijpt hoe het sturen werkt.

De onderzoekers wilden weten: Kan de AI zelf de oplossing bedenken, zonder dat we haar de opties geven?

🚀 De Oplossing: VOILA (Visual Analogy)

VOILA is een test waarbij de AI moet creëren, niet alleen kiezen.

De taak: De AI krijgt drie plaatjes en moet een vierde plaatje maken dat logisch past bij de eerste drie.
De truc: Soms zitten er afleidingen in de plaatjes (zoals een vreemde kleur of een extra voorwerp op de achtergrond). De AI moet die afleidingen negeren en alleen kijken naar de echte logica (bijvoorbeeld: "het aantal dieren verdubbelt").

Dit is als een detective die een moord moet oplossen. De AI moet niet alleen kijken naar de verdachte, maar ook begrijpen wie de echte dader is en wie alleen maar een onschuldig voorbijganger is.

📉 Wat bleek er? (De Teleurstellende Resultaten)

De onderzoekers hebben de beste AI's ter wereld (zoals GPT-4o en LLaMa) op deze test gezet. Het resultaat? Ze zakten door de bodem.

Mensen: Haalden ongeveer 70% goed. Ze snappen de logica direct.
De beste AI (GPT-4o): Haalde slechts 29% goed op de makkelijke versie en nog minder op de moeilijke versie.
Andere AI's: Haalden soms zelfs minder dan 13%.

De vergelijking:
Het is alsof je een Formule 1-auto (de AI) laat racen op een simpele fietspad. De auto heeft een enorme motor (veel rekenkracht), maar hij weet niet hoe hij moet fietsen. Hij kan prachtige foto's beschrijven (hij weet dat er een hond op staat), maar hij faalt volledig als hij moet begrijpen waarom de hond van positie verandert.

🔍 Waarom lukt het niet?

De onderzoekers ontdekten drie grote problemen:

Ze zien de afleiding: Als er een afleidingsmanoeuvre in het plaatje zit (bijvoorbeeld een rode ballon die niks met de logica te maken heeft), raakt de AI in de war. Ze denken: "Oh, de ballon is rood, dus het antwoord moet ook rood zijn!" Terwijl de logica niets met de kleur te maken heeft.
Ze kunnen niet "stap voor stap" denken: Als je de AI vraagt om direct het antwoord te geven, faalt ze. Maar als je haar zegt: "Eerst beschrijf je de plaatjes, dan zoek je het patroon, en pas daarna maak je het antwoord," gaat het iets beter. Dit noemen ze "Least-to-Most" prompting (van makkelijk naar moeilijk). Het is alsof je een kind leert te fietsen: eerst op een loopfiets, dan met wieltjes, en pas daarna zonder.
Plaatjes vs. Tekst: Als je de AI de plaatjes laat zien, faalt hij. Als je de AI alleen de tekst over de plaatjes geeft (bijvoorbeeld: "Er zijn twee honden die zwemmen"), presteert hij veel beter. Dit betekent dat de AI goed kan lezen, maar slecht kan zien en begrijpen wat er in een plaatje gebeurt.

💡 De Conclusie

VOILA laat zien dat we nog ver verwijderd zijn van een AI die echt "menselijk" kan denken.

Huidige AI's zijn als briljante parkeerautomaten: ze kunnen perfect een auto parkeren (een plaatje beschrijven), maar ze kunnen niet zelf een route plannen door een stad (relaties tussen plaatjes begrijpen).
Om echt slim te worden, moeten AI's leren om niet alleen te kijken, maar om te redeneren en patronen te herkennen, zelfs als er afleidingen zijn.

Kortom: De AI's zijn nog steeds kinderen die leren fietsen, en VOILA is de test om te zien of ze eindelijk los kunnen laten van het loopfietsje. Tot nu toe vallen ze nog vaak. 🚲🤖

Each language version is independently generated for its own context, not a direct translation.

Titel: VOILA: Evaluatie van Multimodale Grootte Taalmodellen (MLLMs) voor Perceptueel Begrip en Analogisch Redeneren

1. Het Probleem

Multimodale Grootte Taalmodellen (MLLMs) hebben aanzienlijke vooruitgang geboekt in taken zoals beeldbeschrijving en visuele vraag-antwoordsystemen. Echter, hun vermogen om abstract redeneren en relationele relaties tussen meerdere afbeeldingen te begrijpen, blijft een significant uitdaging.

Beperkingen van bestaande benchmarks: Veel huidige benchmarks vertrouwen op meerkeuzevragen (multiple-choice). Dit beperkt het vermogen van het model om hoogwaardige cognitieve taken uit te voeren, zoals het genereren van oplossingen op basis van abstracte context, in plaats van het selecteren uit een vooraf gedefinieerde set.
Het ontbrekende stuk: Er is een gebrek aan benchmarks die MLLMs testen op hun vermogen om analogieën te maken (A is tot B als C is tot D) in een open-ended omgeving, waarbij het model een nieuwe afbeelding moet genereren die de analogie voltooit.

2. Methodologie: De VOILA Benchmark

De auteurs stellen VOILA voor, een grote, open-ended en dynamische benchmark ontworpen om perceptueel begrip en relationeel redeneren te evalueren.

Taakdefinitie: De kern van VOILA is een visuele analogie-taak: gegeven twee afbeeldingsparen (een referentiepaar en een toepassingspaar), moet het model een vierde afbeelding genereren die de relatie tussen het eerste paar toepast op het tweede paar.
- Formaat: $A : A' :: B : B'$ (Waarbij $B'$ de te genereren afbeelding is).
Dataset Generatie:
- De dataset is dynamisch gegenereerd met behulp van tekst-naar-beeldmodellen (SDXL).
- Er zijn drie kern eigenschappen gedefinieerd: Aantal onderwerpen, Type onderwerp en Actie.
- Er worden vier soorten regels toegepast om de relaties te definiëren:
  1. Stabiel: De eigenschap blijft gelijk.
  2. Verandering: De eigenschap verandert op een specifieke manier.
  3. Rekenkundig: Het aantal onderwerpen verandert volgens een rekenkundige regel (toename/afname).
  4. Aandacht (Distraction): Een eigenschap verandert willekeurig en is irrelevant voor de analogie; het model moet dit filteren.
Sub-datasets:
- VOILA-WD (With Distraction): Bevat afbeeldingen met irrelevante veranderingen (distractions) om de taak moeilijker te maken.
- VOILA-ND (No Distraction): Bevat alleen de relevante relationele regels.
Evaluatie Pipeline:
- Het proces is opgesplitst in vier stappen (Least-to-Most prompting):
  1. Visuele inhoud beschrijven.
  2. Relaties tussen afbeeldingen identificeren.
  3. Relaties toepassen op de derde afbeelding.
  4. De vierde afbeelding genereren (of de tekstuele beschrijving ervan).
- Evaluatie gebeurt via GPT-4o en menselijke beoordeling (MTurk) door de gegenereerde output te vergelijken met de grondwaarheid (ground truth).

3. Belangrijkste Bijdragen

VOILA Benchmark: Introductie van een schaalbaar, open-ended benchmark met meer dan 6,4 miljoen unieke scenario's, specifiek gericht op hoogwaardig abstract redeneren in plaats van selectie uit opties.
Dynamische Generatie: Een methode om visuele analogievragen dynamisch te creëren met variabele complexiteit (via distraction rules).
Uitgebreide Evaluatie: Een grondige analyse van state-of-the-art MLLMs (inclusief GPT-4o, LLaMa 3.2, Qwen2-VL, CogVLM2) die een groot prestatiekloof tussen mens en machine blootlegt.
Analyse van Factoren: Onderzoek naar de invloed van inputformaten (collage vs. sequentiële afbeeldingen), prompting-strategieën (Least-to-Most vs. direct antwoord) en de aanwezigheid van distracties.

4. Resultaten

De experimenten tonen aan dat huidige MLLMs ernstige moeite hebben met deze taken:

Prestatiekloof Mens vs. Machine:
- Mensen behalen ongeveer 70-71% nauwkeurigheid op zowel VOILA-WD als VOILA-ND.
- De beste MLLM (GPT-4o op VOILA-ND) haalt slechts 29% nauwkeurigheid bij het toepassen van relaties.
- Op de moeilijkere VOILA-WD dataset presteert de beste model (LLaMa 3.2) slechts 13%.
Stapsgewijze Afname: De nauwkeurigheid daalt drastisch naarmate de taak complexer wordt. Modellen doen het redelijk goed bij het beschrijven van afbeeldingen (>60%), maar zakken in bij het identificeren van relaties en het toepassen daarvan (<30%).
Invloed van Prompting:
- Least-to-Most (L2M) prompting verbetert de prestaties aanzienlijk ten opzichte van directe antwoorden (bijv. +12% voor GPT-4o op VOILA-ND).
- Input Formaat: Het gebruik van sequentiële afbeeldingen (drie aparte afbeeldingen) werkt aanzienlijk beter dan een beeldcollage (alle drie in één afbeelding), met een verbetering van ongeveer 40% in nauwkeurigheid.
Ablatie Studies:
- Zelfs wanneer het model de grondwaarheid van de beschrijvingen of relaties krijgt (in plaats van ze zelf te moeten afleiden), daalt de prestatie bij het toepassen van deze relaties op nieuwe visuele input drastisch (van 97% naar 17% voor GPT-4o). Dit suggereert dat het probleem niet alleen in perceptie ligt, maar in het vermogen om abstracte regels te transfereren.
- Modellen presteren beter op tekstuele input dan op visuele input voor deze redeneertaken (49% vs 22% voor GPT-4o).

5. Betekenis en Conclusie

Het paper concludeert dat huidige MLLMs, ondanks hun indrukwekkende prestaties op veel visuele taken, nog niet beschikken over het niveau van cognitieve intelligentie dat nodig is voor hoogwaardig relationeel redeneren en kennisoverdracht tussen afbeeldingen.

Kritiek op bestaande modellen: Modellen worstelen om irrelevante informatie (distractions) te filteren en abstracte patronen consistent toe te passen op nieuwe contexten.
Toekomstperspectief: VOILA dient als een strenge benchmark om de ontwikkeling van MLLMs te sturen naar menselijke niveaus van abstractie en redeneren. De resultaten benadrukken dat het simpelweg "zien" niet genoeg is; modellen moeten leren "denken" over de relaties tussen visuele elementen.

Samenvattend biedt VOILA een nieuwe standaard om de beperkingen van multimodale modellen op het gebied van abstract denken te kwantificeren en biedt het inzicht in hoe prompting en inputformaten deze beperkingen kunnen beïnvloeden.

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

🎨 VOILA: De "Schaakpartij" voor AI's

🧠 Het Probleem: De "Meerkeuzeval"

🚀 De Oplossing: VOILA (Visual Analogy)

📉 Wat bleek er? (De Teleurstellende Resultaten)

🔍 Waarom lukt het niet?

💡 De Conclusie

Titel: VOILA: Evaluatie van Multimodale Grootte Taalmodellen (MLLMs) voor Perceptueel Begrip en Analogisch Redeneren

1. Het Probleem

2. Methodologie: De VOILA Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora