Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models

Each language version is independently generated for its own context, not a direct translation.

Hoe een AI-geest werkt: Een reis door de hersenen van een taalmodel

Stel je voor dat je een enorme bibliotheek binnenloopt. In deze bibliotheek zit een robot die boeken leest en probeert te begrijpen wat erin staat. Maar in plaats van alleen maar woorden te onthouden, bouwt deze robot een compleet nieuw soort "geest" op.

Wetenschappers hebben al lang ontdekt dat als we kijken naar de gedachten van deze robot (de data die hij verwerkt terwijl hij leest), die gedachten opvallend lijken op de activiteit in onze eigen menselijke hersenen. Maar er is een raadsel: waarom lijken ze op elkaar? En waarom is het niet de robot die het antwoord geeft, maar juist de robot die halverwege de zin zit?

Dit artikel van Emily Cheng en Richard Antonello lost dit raadsel op met een fascinerend verhaal over twee fases van denken.

1. Het mysterie van de "halverwege" robot

Stel je voor dat de robot een lange zin leest, zoals: "De kleine hond rent vrolijk door het park."

Fase 1 (De beginlaag): De robot ziet alleen losse letters en woorden. "D", "e", "h", "o", "n", "d". Dit is als het zien van losse puzzelstukjes.
Fase 2 (De eindlaag): De robot probeert het volgende woord te voorspellen. Hij denkt: "Wat komt er na 'park'? Misschien 'lekker' of 'gras'?" Dit is als het raden van het antwoord op een quiz.

Wetenschappers dachten dat de robot het beste in zijn hersenen leek op de onze als hij het antwoord probeerde te raden (Fase 2). Maar dit artikel zegt: Nee! De robot lijkt het meest op onze hersenen in Fase 1, halverwege de zin. Op dat moment bouwt hij een rijk, complex beeld van wat de zin betekent, voordat hij überhaupt aan het raden begint.

2. De twee fases van denken: Bouwen vs. Raden

De auteurs gebruiken een mooie analogie om dit uit te leggen. Stel je voor dat je een prachtige, ingewikkelde maquette van een stad bouwt.

Fase 1: De Bouwfase (Compositie)
In het begin van het proces (de eerste lagen van de robot) verzamelt de robot alle informatie. Hij bouwt de straten, de gebouwen, de bomen en de mensen. Hij maakt een compleet, driedimensionaal beeld van de situatie.
- In het artikel: Dit is de fase waar de "intrinsieke dimensie" (een maat voor hoe complex en rijk de gedachte is) het hoogst is. De robot heeft hier een heel breed, gedetailleerd begrip van de taal.
- Vergelijking: Dit is precies wat onze hersenen doen als we luisteren naar een verhaal. We bouwen een mentaal beeld van de situatie op.
Fase 2: De Radfase (Voorspelling)
Zodra de maquette klaar is, moet de robot zijn werk afmaken door het volgende woord te raden. Om dit te doen, moet hij zijn brede, complexe beeld versmallen. Hij moet zich focussen op één specifiek antwoord. Hij gooit de details weg die niet nodig zijn voor het voorspellen van het volgende woord.
- In het artikel: Hier daalt de complexiteit. De robot wordt minder "menselijk" in zijn denken en meer als een rekenmachine die een voorspelling doet.

De grote ontdekking: Onze hersenen lijken op de robot omdat we ook eerst een compleet beeld bouwen (Fase 1) voordat we iets zeggen of doen. We zijn niet alleen bezig met het voorspellen van het volgende woord; we zijn bezig met het begrijpen van de wereld.

3. Hoe ze dit hebben bewezen: De "Hersenscan" van de robot

De auteurs hebben dit niet zomaar geraden. Ze hebben een slimme truc gebruikt:

De Robot: Ze namen verschillende versies van een taalmodel (zoals OPT en Pythia) en keken naar elke stap die de robot maakte terwijl hij tekst las.
De Mensen: Ze lieten echte mensen luisteren naar podcastverhalen terwijl ze in een MRI-scanner lagen (een soort supersterke camera voor hersenen).
De Vergelijking: Ze keken welke stap van de robot het beste paste bij welke activiteit in de menselijke hersenen.

Het resultaat:

De stap van de robot waar het meest complexe, abstracte beeld werd gemaakt (de piek in complexiteit), paste perfect bij de gebieden in de menselijke hersenen die verantwoordelijk zijn voor taalbegrip.
De stap waar de robot het volgende woord voorspelde, paste veel minder goed.

4. Wat betekent dit voor de toekomst?

Dit onderzoek vertelt ons twee belangrijke dingen:

AI is meer dan een voorspeller: Het feit dat robots onze hersenen nabootsen, komt niet omdat ze zo goed zijn in het raden van het volgende woord (zoals een auto-correctie op je telefoon). Het komt omdat ze, net als wij, leren om betekenis en samenhang te creëren uit losse woorden.
Beter begrijpen, beter voorspellen: Als we willen dat AI-modellen onze hersenen nog beter begrijpen (of dat we betere modellen kunnen bouwen voor medische toepassingen), moeten we kijken naar die "bouwfase" waar de complexiteit het hoogst is, en niet naar de eindresultaten.

Kortom:
De robot en de mens zijn op hun best vergelijkbaar wanneer ze allebei bezig zijn met het bouwen van een rijk verhaal in hun hoofd, en niet wanneer ze bezig zijn met het raden van het einde. Het artikel bewijst dat de magie van taal niet zit in het voorspellen, maar in het begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Bewijs uit fMRI ondersteunt een tweefasig abstractieproces in Taalmodellen

Auteurs: Emily Cheng en Richard J. Antonello
Publicatie: Preprint (arXiv:2409.05771), 2024

1. Het Probleem

Recent onderzoek heeft aangetoond dat de verborgen staten (hidden states) van grote taalmodellen (LLMs) menselijke hersenactiviteit kunnen voorspellen wanneer mensen natuurlijke taal beluisteren. Een opvallend fenomeen is dat intermediare (tussenliggende) lagen van deze modellen de beste voorspellingen leveren, en niet de uiteindelijke output-lagen.

De kernvraag die dit artikel adresseert is: Waarom zijn deze specifieke lagen het meest geschikt voor het modelleren van hersenactiviteit?
Bestaande theorieën suggereren dat de gelijkenis voortkomt uit het gezamenlijke doel van next-token predictie (voorspellen van het volgende woord). De auteurs betogen echter dat dit niet de primaire drijfveer is, maar dat het te maken heeft met de compositionaliteit en abstractie binnen het model. Ze onderzoeken of er een fundamenteel verschil is tussen de lagen die abstracte concepten bouwen en de lagen die zich richten op het voorspellen van het volgende woord.

2. Methodologie

De auteurs testen de hypothese dat feature-abstractie (en niet per se next-token predictie) de gelijkenis tussen hersenen en modellen drijft. Hiervoor analyseren ze drie variabelen over de lagen van verschillende LLMs (OPT-familie en Pythia):

Hersenen-Model Similariteit (Encoding Performance):
- Gebruik van openbare fMRI-data van 3 proefpersonen die 20 uur aan Engelse podcastverhalen beluisterden.
- Er wordt een lineaire regressie (ridge regression) getraind om de activatie van een specifieke LLM-laag te koppelen aan de hersenactiviteit (voxel-voor-voxel). De voorspellingskracht (encoding performance) wordt gemeten.
Intrinsieke Dimensionaliteit (Intrinsic Dimensionality - $I_d$ ):
- Om de complexiteit van de abstracte features te meten, berekenen ze de intrinsieke dimensionaliteit van de representaties in elke laag.
- Ze gebruiken de GRIDE (Generalized Ratios Intrinsic Dimension Estimator) voor niet-lineaire schatting en PCA/Participation Ratio voor lineaire schatting.
- De data komt van 10.000 willekeurige 20-woord contexten uit 'The Pile'.
Surprisal (Next-Token Predictie Fout):
- Om de alternatieve hypothese (dat predictie de drijfveer is) te testen, berekenen ze de surprisal (voorspelfout) per laag.
- Hiervoor gebruiken ze de TunedLens-methode, die een affiene mapping leert van een tussenliggende laag naar de vocabulaire-ruimte om de next-token predictie te schatten zonder het hele model te hoeven doorlopen.

3. Belangrijkste Bijdragen en Resultaten

A. Sterke Correlatie tussen Dimensionaliteit en Hersenpredictie

De auteurs vinden een sterke, positieve correlatie tussen de intrinsieke dimensionaliteit ( $I_d$ ) van een laag en de encoding performance (hoe goed die laag hersenactiviteit voorspelt).

Dit geldt voor verschillende modelgroottes (OPT-125M tot 13B en Pythia-6.9B).
De correlatie is het sterkst in hersengebieden die betrokken zijn bij hogere taalkundige verwerking, terwijl het auditieve cortex (dat lage niveaus verwerkt) minder sterk correleert met $I_d$ .
Dit suggereert dat de complexiteit van de abstracte features (gemeten door $I_d$ ) cruciaal is voor het modelleren van menselijk taalbegrip.

B. Bewijs voor een Tweefasig Proces (Compositie vs. Predictie)

De analyse onthult een duidelijke fase-overgang in de lagen van het model:

Fase 1: Compositie/Abstractie: De eerste lagen bouwen een rijke, hoge-dimensionale representatie van de input op. De $I_d$ neemt toe en bereikt een piek. In deze fase is de encoding performance voor hersenen het hoogst.
Fase 2: Predictie/Extractie: Na de piek in $I_d$ (ongeveer laag 17 bij OPT-1.3B) daalt de encoding performance scherp, terwijl de next-token predictie (surprisal) verbetert. De dimensionaliteit neemt af, wat suggereert dat het model de representatie "versmalt" om zich te focussen op het voorspellen van het volgende woord.

De piek in encoding performance valt exact samen met de piek in intrinsieke dimensionaliteit en het begin van de scherpe daling in predictieverlies. Dit ondersteunt het idee dat de eerste abstractiefase de gelijkenis met de hersenen drijft, en niet de latere predictiefase.

C. Evolutie tijdens Training

Door te kijken naar checkpoints van het Pythia-model tijdens training, laten de auteurs zien dat:

De piek in $I_d$ en encoding performance niet statisch is, maar verschuift naarmate het model meer getraind wordt.
Naarmate het model groeit en meer getraind wordt, verschuift de optimale laag voor encoding naar eerdere lagen in het model.
Dit weerlegt de hypothese dat de piek een triviaal artefact is van de Transformer-architectuur (zoals een vaste laagindex); het is een dynamisch gevolg van het leerproces.

4. Betekenis en Conclusies

Mechanisme van Gelijkenis: De gelijkenis tussen LLMs en menselijke hersenen wordt primair gedreven door de compositionaliteit (het opbouwen van abstracte concepten) en niet door het autoregressieve doel van next-token predictie. Sterker nog, als modellen beter worden in predictie, kunnen de lagen die het beste de hersenen modelleren en de lagen die het beste voorspellen uit elkaar drijven.
Twee Fasen: Het werk biedt empirisch bewijs voor een tweefasig abstractieproces in LLMs: een vroege fase van feature-extractie en een latere fase van predictie-optimalisatie.
Praktische Implicaties: Voor het bouwen van betere "encoding models" (modellen die hersenactiviteit voorspellen) is het niet optimaal om alleen de laatste lagen te gebruiken. Het combineren van lagen met een hoge intrinsieke dimensionaliteit (de "compositie-fase") zou kunnen leiden tot betere representaties dan enige enkele laag.
Beperkingen: De studie test momenteel twee modelgezinnen (OPT en Pythia). Verdere validatie op andere architecturen is nodig om te bevestigen dat dit een universeel kenmerk is.

Samenvattend: Dit artikel toont aan dat de "magische" tussenlagen van taalmodellen die zo goed overeenkomen met het menselijk brein, dat doen omdat ze een rijke, hoge-dimensionale abstractie van taal bevatten. Zodra het model overschakelt naar het puur voorspellen van het volgende woord, verliest het deze specifieke overeenkomst met de hersenactiviteit.

Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models

1. Het mysterie van de "halverwege" robot

2. De twee fases van denken: Bouwen vs. Raden

3. Hoe ze dit hebben bewezen: De "Hersenscan" van de robot

4. Wat betekent dit voor de toekomst?

Titel: Bewijs uit fMRI ondersteunt een tweefasig abstractieproces in Taalmodellen

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Sterke Correlatie tussen Dimensionaliteit en Hersenpredictie

B. Bewijs voor een Tweefasig Proces (Compositie vs. Predictie)

C. Evolutie tijdens Training

4. Betekenis en Conclusies

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers