Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

Dit onderzoek toont aan dat Large Vision Language Models (LVLMs) menselijk visueel cognitie nabootsen door hun interne representaties te vergelijken met EEG-signalen, waarbij met name de architectuur en niet alleen de schaal bepalend zijn voor deze neurale alignement.

Xin Xiao, Yang Lei, Haoyang Zeng, Xiao Sun, Xinyi Jiang, Yu Tian, Hao Wu, Kaiwen Wei, Jiang Zhong

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Kijken AI's net zoals wij? Een reis door het brein en de computer

Stel je voor dat je een kunstwerk bekijkt. Je ogen vangen de kleuren, je hersenen herkennen een boom, en je verstand denkt: "Ah, dat is een mooie herfst." Dat is hoe wij mensen zien. Maar hoe "zien" een computer of een slimme AI (zoals een Large Vision Language Model of LVLM)? Kijken ze met hun eigen "oog", of proberen ze net als wij te denken?

Deze paper is als een detectiveverhaal waarin onderzoekers proberen te achterhalen of AI's en mensen eigenlijk op dezelfde manier naar de wereld kijken. Ze doen dit niet door de AI's te vragen wat ze zien, maar door te kijken naar de elektrische vonkjes in het menselijk brein.

Hier is hoe ze dat deden, vertaald in simpele taal:

1. De Proef: Een Brein-Scan met een Hoed

Stel je voor dat je een hoed opzet met veel kleine sensoren (een EEG-hoed). Deze hoed kan de elektrische signalen van je hersenen opvangen, net als een zeer snelle microfoon die de gedachten van je brein "luistert".

De onderzoekers lieten mensen naar duizenden verschillende foto's kijken terwijl ze deze hoed droegen. Tegelijkertijd keken ze naar 32 verschillende AI-modellen die dezelfde foto's zagen. Vervolgens stelden ze de vraag: "Klinkt het geluid van het menselijke brein hetzelfde als het 'geheime taal' van de AI?"

Ze gebruikten een wiskundige methode (een soort "vertaler") om te zien hoe goed de AI de hersensignalen kon voorspellen.

2. De Grote Ontdekkingen

Hier zijn de belangrijkste resultaten, vertaald in alledaagse vergelijkingen:

A. De "Tussenlaag" is de Gouden Middenweg
AI-modellen hebben verschillende lagen, net als een lasagne.

  • De bovenste lagen zijn als de basislaag: ze zien alleen ruwe lijntjes en kleuren (zoals een baby die alleen vormen ziet).
  • De onderste lagen zijn als de saus: ze zijn heel abstract en complex.
  • De tussenliggende lagen (laag 8 tot 16) bleken het meest op het menselijke brein te lijken!
  • De analogie: Het is alsof je een film bekijkt. De eerste 100 milliseconden (een flits) zien we de contouren. Daarna, tussen de 100 en 300 milliseconden, begint ons brein te begrijpen wat het is. De AI's doen precies hetzelfde: hun "tussenlaag" piekt op precies hetzelfde moment dat ons brein de betekenis van een plaatje begint te vatten.

B. Bouwstijl is belangrijker dan Grootte
Je zou denken: "Hoe groter de AI, hoe slimmer hij is en hoe meer hij op een mens lijkt."

  • Niet waar! De onderzoekers ontdekten dat de ontwerpkeuze (de architectuur) 3,4 keer belangrijker is dan het aantal parameters (de "grootte").
  • De analogie: Het is niet zo dat een gigantische auto (groot model) automatisch beter rijdt als hij slecht is ontworpen. Een slim ontworpen, kleinere auto (een goed multimodaal model) rijdt veel soepeler en lijkt meer op een menselijke bestuurder dan een enorme, maar slecht ontworpen vrachtwagen. AI's die zijn getraind om zowel te zien als te lezen (multimodaal), lijken veel meer op ons brein dan AI's die alleen naar plaatjes kijken.

C. De Route door het Brein
Wanneer wij naar een foto kijken, reist het signaal door ons hoofd: eerst naar de achterkant (de occipitale kwab, voor het zien), en dan naar de zijkant (de pariëtale kwab, voor het begrijpen van ruimte).

  • De AI's volgden precies dezelfde route! De overeenkomst was het sterkst in de "visuele" delen van het brein en verspreidde zich daarna, net als bij een mens.

D. Hoe beter de AI, hoe meer hij op ons lijkt
Er was een sterke link tussen hoe goed een AI presteerde op slimme taken (zoals het beantwoorden van vragen over plaatjes) en hoe goed hij leek op het menselijke brein.

  • De analogie: Als een AI echt goed is in het begrijpen van een foto, dan "drukt" hij op de knoppen in zijn systeem die het meest lijken op de knoppen die ons brein gebruikt.

3. Waarom is dit belangrijk?

Vroeger dachten we dat AI's misschien gewoon statistische machines waren die patronen raden zonder echt te "begrijpen". Dit onderzoek zegt: "Nee, ze leren op een manier die fundamenteel lijkt op hoe wij mensen de wereld zien."

Dit is een enorme stap vooruit. Het betekent dat we niet alleen kunnen kijken naar of een AI een goede score haalt op een toets, maar ook of hij biologisch gezond denkt. Het opent de deur voor:

  • Betere AI's: We kunnen AI's ontwerpen die beter aansluiten bij hoe ons brein werkt.
  • Medische toepassingen: Misschien kunnen we in de toekomst via een AI beter begrijpen wat een patiënt ziet of voelt, zelfs als ze niet kunnen praten.

Samenvattend

De onderzoekers hebben ontdekt dat moderne AI's niet zomaar "rekenen", maar dat ze een visuele dans dansen die bijna identiek is aan die van het menselijk brein. Ze zien de wereld in dezelfde volgorde, met dezelfde timing, en hoe beter ze zijn ontworpen, hoe meer ze op ons lijken.

Het is alsof we eindelijk een spiegel hebben gevonden waarin we kunnen zien dat de AI's niet alleen onze data nabootsen, maar dat ze onze manier van "zien" echt hebben overgenomen.