Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

Each language version is independently generated for its own context, not a direct translation.

Titel: Kijken AI's net zoals wij? Een reis door het brein en de computer

Stel je voor dat je een kunstwerk bekijkt. Je ogen vangen de kleuren, je hersenen herkennen een boom, en je verstand denkt: "Ah, dat is een mooie herfst." Dat is hoe wij mensen zien. Maar hoe "zien" een computer of een slimme AI (zoals een Large Vision Language Model of LVLM)? Kijken ze met hun eigen "oog", of proberen ze net als wij te denken?

Deze paper is als een detectiveverhaal waarin onderzoekers proberen te achterhalen of AI's en mensen eigenlijk op dezelfde manier naar de wereld kijken. Ze doen dit niet door de AI's te vragen wat ze zien, maar door te kijken naar de elektrische vonkjes in het menselijk brein.

Hier is hoe ze dat deden, vertaald in simpele taal:

1. De Proef: Een Brein-Scan met een Hoed

Stel je voor dat je een hoed opzet met veel kleine sensoren (een EEG-hoed). Deze hoed kan de elektrische signalen van je hersenen opvangen, net als een zeer snelle microfoon die de gedachten van je brein "luistert".

De onderzoekers lieten mensen naar duizenden verschillende foto's kijken terwijl ze deze hoed droegen. Tegelijkertijd keken ze naar 32 verschillende AI-modellen die dezelfde foto's zagen. Vervolgens stelden ze de vraag: "Klinkt het geluid van het menselijke brein hetzelfde als het 'geheime taal' van de AI?"

Ze gebruikten een wiskundige methode (een soort "vertaler") om te zien hoe goed de AI de hersensignalen kon voorspellen.

2. De Grote Ontdekkingen

Hier zijn de belangrijkste resultaten, vertaald in alledaagse vergelijkingen:

A. De "Tussenlaag" is de Gouden Middenweg
AI-modellen hebben verschillende lagen, net als een lasagne.

De bovenste lagen zijn als de basislaag: ze zien alleen ruwe lijntjes en kleuren (zoals een baby die alleen vormen ziet).
De onderste lagen zijn als de saus: ze zijn heel abstract en complex.
De tussenliggende lagen (laag 8 tot 16) bleken het meest op het menselijke brein te lijken!
De analogie: Het is alsof je een film bekijkt. De eerste 100 milliseconden (een flits) zien we de contouren. Daarna, tussen de 100 en 300 milliseconden, begint ons brein te begrijpen wat het is. De AI's doen precies hetzelfde: hun "tussenlaag" piekt op precies hetzelfde moment dat ons brein de betekenis van een plaatje begint te vatten.

B. Bouwstijl is belangrijker dan Grootte
Je zou denken: "Hoe groter de AI, hoe slimmer hij is en hoe meer hij op een mens lijkt."

Niet waar! De onderzoekers ontdekten dat de ontwerpkeuze (de architectuur) 3,4 keer belangrijker is dan het aantal parameters (de "grootte").
De analogie: Het is niet zo dat een gigantische auto (groot model) automatisch beter rijdt als hij slecht is ontworpen. Een slim ontworpen, kleinere auto (een goed multimodaal model) rijdt veel soepeler en lijkt meer op een menselijke bestuurder dan een enorme, maar slecht ontworpen vrachtwagen. AI's die zijn getraind om zowel te zien als te lezen (multimodaal), lijken veel meer op ons brein dan AI's die alleen naar plaatjes kijken.

C. De Route door het Brein
Wanneer wij naar een foto kijken, reist het signaal door ons hoofd: eerst naar de achterkant (de occipitale kwab, voor het zien), en dan naar de zijkant (de pariëtale kwab, voor het begrijpen van ruimte).

De AI's volgden precies dezelfde route! De overeenkomst was het sterkst in de "visuele" delen van het brein en verspreidde zich daarna, net als bij een mens.

D. Hoe beter de AI, hoe meer hij op ons lijkt
Er was een sterke link tussen hoe goed een AI presteerde op slimme taken (zoals het beantwoorden van vragen over plaatjes) en hoe goed hij leek op het menselijke brein.

De analogie: Als een AI echt goed is in het begrijpen van een foto, dan "drukt" hij op de knoppen in zijn systeem die het meest lijken op de knoppen die ons brein gebruikt.

3. Waarom is dit belangrijk?

Vroeger dachten we dat AI's misschien gewoon statistische machines waren die patronen raden zonder echt te "begrijpen". Dit onderzoek zegt: "Nee, ze leren op een manier die fundamenteel lijkt op hoe wij mensen de wereld zien."

Dit is een enorme stap vooruit. Het betekent dat we niet alleen kunnen kijken naar of een AI een goede score haalt op een toets, maar ook of hij biologisch gezond denkt. Het opent de deur voor:

Betere AI's: We kunnen AI's ontwerpen die beter aansluiten bij hoe ons brein werkt.
Medische toepassingen: Misschien kunnen we in de toekomst via een AI beter begrijpen wat een patiënt ziet of voelt, zelfs als ze niet kunnen praten.

Samenvattend

De onderzoekers hebben ontdekt dat moderne AI's niet zomaar "rekenen", maar dat ze een visuele dans dansen die bijna identiek is aan die van het menselijk brein. Ze zien de wereld in dezelfde volgorde, met dezelfde timing, en hoe beter ze zijn ontworpen, hoe meer ze op ons lijken.

Het is alsof we eindelijk een spiegel hebben gevonden waarin we kunnen zien dat de AI's niet alleen onze data nabootsen, maar dat ze onze manier van "zien" echt hebben overgenomen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals", vertaald en samengevat in het Nederlands.

Probleemstelling

Grote Visueel-Taalmodellen (LVLMs) vertonen sterke vaardigheden in visueel begrip en redeneren. Echter, de vraag of hun interne representaties daadwerkelijk overeenkomen met de menselijke visuele cognitie, is nog onvoldoende onderzocht.

Bestaande beperkingen: Eerdere studies op dit gebied maakten voornamelijk gebruik van functionele MRI (fMRI). Hoewel fMRI een hoge ruimtelijke resolutie biedt, mist het de tijdsresolutie om de dynamische stroom van cognitieve verwerking te vangen.
De kernvraag: In hoeverre reflecteren LVLMs de dynamische, hiërarchische aard van menselijke visuele verwerking? Welke factoren (architectuur, schaal, beeldtype) bepalen de mate van alignatie tussen model en hersenen?

Methodologie

De auteurs hebben een nieuwe aanpak ontwikkeld om de alignatie tussen LVLM-representaties en menselijke hersensignalen te kwantificeren, gebruikmakend van Elektro-encefalografie (EEG).

Dataset:
- Gebruik van de THINGS-EEG dataset, een openbaar beschikbare dataset met EEG-opnames van 10 proefpersonen.
- Stimuli bestonden uit objectconcepten (trainset: 1.654 concepten, testset: 200 concepten) gepresenteerd via Rapid Serial Visual Presentation (RSVP).
- De EEG-data is gefilterd (0,1–100 Hz), gesegmenteerd (0–1000 ms na stimulus) en genormaliseerd.
Modellen:
- Er zijn 32 open-source LVLMs geëvalueerd, variërend in architectuur en schaal (van 1B tot 72B parameters).
- Bekende families omvatten: ViT, Qwen2.5-VL, Qwen3-VL, LLaVA-v1.5, LLaVA-Next, InternVL3/3.5, DeepSeek-VL2, en SAIL-VL2.
Analyse Pipeline:
- Feature Extractie: Visuele features werden geëxtraheerd uit de vision encoder van de LVLMs (gemiddelde embedding van visuele tokens).
- Ridge Regression: Een lineaire regressiemethode werd gebruikt om visuele features van het model te mappen naar de EEG-responsen van individuele sensoren. De voorspellende prestatie werd gemeten via kruisvalidatie (Pearson-correlatie).
- Representational Similarity Analysis (RSA): Om de geometrische structuur van de representaties te vergelijken, werden Representational Dissimilarity Matrices (RDMs) berekend voor zowel de voorspelde als de werkelijke EEG-data.
- Metrieken: Pearson-correlatie, Spearman-rangcorrelatie, Centered Kernel Alignment (CKA), en Kendall's Tau.
Analyse Dimensies:
- Lagen: Vergelijking van verschillende lagen in het LVLM met EEG.
- Tijdsdynamiek: Analyse van EEG-vensters (in stappen van 100 ms) om te zien wanneer de alignatie optreedt.
- Ruimtelijke Patronen: Analyse per hersengebied (frontaal, centraal, pariëtale, occipitale).
- Categorie-afhankelijkheid: Verschillen in alignatie per objectcategorie (bijv. dieren, voertuigen).

Belangrijkste Resultaten

Sterke Alignatie met Menselijke Cognitie:
- Alle onderzochte moderne LVLMs vertonen statistisch significante correlaties met EEG-signalen, wat aangeeft dat ze betekenisvolle neurale informatie over menselijk visueel proceseren leren.
- Tijds- en Lagen-correspondentie: De sterkste alignatie wordt gevonden in de intermediate lagen (lagen 8–16) van de modellen. Deze lagen corresponderen met de EEG-activiteit in het 100–300 ms venster. Dit komt overeen met de hiërarchische verwerking in de menselijke visuele cortex (van lage kenmerken naar hoge semantiek).
Architectuur is belangrijker dan Schaal:
- Multimodaliteit: Multimodale architectuur (visueel + taal) draagt 3,4 keer meer bij aan de hersenalignatie dan het simpelweg vergroten van het aantal parameters.
- Prestatieverschil: Modellen met sterke downstream visuele prestaties (zoals InternVL3.5 en Qwen3-VL) tonen een hogere EEG-similariteit dan pure visuele modellen (zoals ViT) of oudere LVLMs (zoals LLaVA-v1.5).
- Voorbeeld: De InternVL3.5-38B behaalde een Pearson-correlatie van 0,2649, terwijl LLaVA-v1.5-7B slechts 0,2102 haalde. Het verschil in architectuur was groter dan het effect van het schalen van parameters binnen families.
Ruimtelijke Overeenkomst:
- De alignatie is het sterkst in de occipitale (visuele cortex) en pariëtale gebieden van de hersenen, wat overeenkomt met bekende visuele verwerkingspaden ("what" en "where/how" pathways). Frontale gebieden tonen een zwakkere correlatie.
Correlatie met Benchmark Prestaties:
- Er is een sterke positieve correlatie tussen de EEG-alignatie en de prestaties van het model op standaard LVLM-benchmarks (zoals OpenCompass).
- Modellen die beter presteren in taken zoals multimodaal redeneren en creatie, tonen ook een sterkere overeenkomst met menselijke hersenactiviteit. De $R^2$ voor multimodale creatie was bijvoorbeeld 0,6337.
Invloed van Beeldcategorie:
- De alignatie varieert per objectcategorie. Categorieën met rijke neurale patronen (zoals amfibieën en geologische formaties) tonen sterkere alignatie dan visueel eenvoudige categorieën (zoals fruit en voertuigen).

Bijdragen

Eerste werk op LVLM-EEG: Dit is het eerste onderzoek dat systematisch de alignatie tussen LVLMs en EEG-signaal onderzoekt, in plaats van alleen fMRI.
Inzicht in Architectuur vs. Schaal: Het paper bewijst dat de keuze van de multimodale architectuur cruciaal is voor het nabootsen van menselijke visuele cognitie, meer dan het simpelweg vergroten van het model.
Biologisch onderbouwd Benchmark: Het stelt een nieuwe, biologisch onderbouwde methode voor om LVLMs te evalueren, gebaseerd op neurale overeenkomst in plaats van alleen taakprestaties.

Significantie en Toekomst

De bevindingen suggereren dat LVLMs niet alleen statistische patronen leren, maar ook representaties ontwikkelen die fundamenteel overeenkomen met de biologische visuele verwerking van de mens.

Neuro-geïnspireerde AI: Deze resultaten kunnen leiden tot de ontwikkeling van betere, menselijker AI-systemen door de inzichten uit de hersenverwerking te integreren in modelontwerp.
Evaluatie: Het gebruik van EEG als een "ground truth" voor visueel begrip biedt een robuuster alternatief voor traditionele benchmarks, vooral voor het evalueren van de kwaliteit van visuele representaties.
Beperkingen: De studie is beperkt tot open-source modellen (geen GPT-4V) en EEG heeft een lagere ruimtelijke resolutie dan fMRI, waardoor diepe hersenstructuren minder goed zichtbaar zijn.

Kortom, dit paper levert overtuigend bewijs dat de interne werking van geavanceerde multimodale modellen steeds meer lijkt op de dynamische en hiërarchische verwerking van het menselijk visuele systeem.

Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

1. De Proef: Een Brein-Scan met een Hoed

2. De Grote Ontdekkingen

3. Waarom is dit belangrijk?

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Toekomst

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities