N-gram-like Language Models Predict Reading Time Best

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een taalcomputer bouwt die zo slim is dat hij elke volgende woord in een zin perfect kan voorspellen. Je zou denken: "Hoe beter hij voorspelt, hoe meer hij lijkt op hoe wij mensen lezen." Maar dit nieuwe onderzoek van James Michaelov en Roger Levy uit MIT vertelt ons een verrassend verhaal: soms is de computer juist te slim voor zijn eigen bestwil.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

Het Probleem: De "Te Slimme" Voorspeller

Vroeger dachten onderzoekers dat als een taalmodel (zoals de AI die dit artikel schrijft) steeds beter werd in het voorspellen van het volgende woord, het ook steeds beter zou worden in het voorspellen van hoe lang mensen over dat woord doen om het te lezen.

Maar er gebeurde iets raars. Toen de modellen heel groot en krachtig werden (zoals de nieuwste AI-modellen), begonnen ze minder goed te voorspellen hoe snel mensen lezen.

De vergelijking: Stel je voor dat je een gids bent die een wandeling door een stad leidt. Als je de stad heel goed kent, weet je precies welke weg de kortste is. Maar als je te goed bent, ga je misschien een weg nemen die voor jou logisch is, maar die de wandelaar (de lezer) niet verwacht. De wandelaar loopt dan vast of kijkt verbaasd, terwijl jij dacht dat je perfect was. De AI wordt zo goed in de "perfecte" statistiek, dat ze vergeet hoe de "gemiddelde" mens denkt.

De Oplossing: De "N-gram" Simpelheid

De auteurs van dit paper komen met een nieuw idee: Mensen lezen niet alsof ze een supercomputer zijn. Ze lezen meer als iemand die kijkt naar korte, simpele patronen.

Ze noemen dit N-gram statistieken.

Wat is dat? Stel je voor dat je een zin leest.
- Een 1-gram kijkt alleen naar het woord zelf (bijv. "hond").
- Een 2-gram kijkt naar het woord en het woord ervoor (bijv. "de hond").
- Een 3-gram kijkt naar drie woorden achter elkaar (bijv. "de grote hond").
Het inzicht: Mensen zijn heel goed in het herkennen van deze korte, simpele combinaties. Ze reageren op de kans dat "de grote hond" volgt, niet op een ingewikkelde berekening van de hele wereldgeschiedenis.

Wat hebben ze bewezen?

De onderzoekers hebben gekeken naar verschillende modellen en geconcludeerd:

De modellen die het beste voorspellen hoe snel mensen lezen, zijn niet de allersterkste, ingewikkeldste AI's.
Het zijn juist de modellen die het meest lijken op die simpele 2- of 3-woord patronen.
Als een AI-model te ver gaat in zijn complexiteit (te veel context, te veel "slimheid"), raakt het de verbinding met hoe het menselijk brein werkt. Het wordt als een pianist die te snel speelt; de luisteraar (het brein) kan de noten niet meer volgen.

Waarom is dit belangrijk?

Dit onderzoek helpt ons begrijpen hoe ons brein werkt terwijl we lezen.

De Metafoor van de Snelweg: Als je rijdt, kijk je niet naar de verkeerssituatie van gisteren of de weersvoorspelling voor morgen. Je kijkt naar de auto direct voor je en de weg die je nu ziet. Dat is een 2-gram of 3-gram perspectief.
De krachtige AI-modellen kijken alsof ze een drone zijn die de hele wereld vanaf boven ziet. Dat is indrukwekkend, maar het helpt je niet om te weten of je moet remmen voor de auto die nu plotseling remt.

Conclusie

De boodschap is simpel: Soms is minder meer.
Om te begrijpen hoe mensen lezen, hoeven we geen modellen te bouwen die alles weten. We moeten modellen bouwen die goed zijn in het herkennen van de simpele, directe patronen die ons brein ook gebruikt. De beste voorspeller van menselijk lezen is dus niet de "slimste" AI, maar de AI die het beste begrijpt wat er gebeurt in de laatste paar woorden die we net hebben gelezen.

Kortom: Mensen lezen niet als supercomputers, maar als mensen die kijken naar wat er direct voor hen gebeurt. En dat is precies wat deze simpele modellen doen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "N-gram-like Language Models Predict Reading Time Best" in het Nederlands.

Probleemstelling

Recente studies hebben aangetoond dat moderne taalmodellen (zoals Transformers) zo goed worden in het voorspellen van het volgende woord, dat de door hen berekende waarschijnlijkheden (surprisal) juist minder goed correleren met de leestijd van mensen. Dit fenomeen staat bekend als inverse schaling (inverse scaling). Waar eerdere aannames waren dat krachtigere modellen met meer parameters en grotere trainingsdatasets beter zouden presteren in het voorspellen van menselijk leesgedrag, tonen recente bevindingen aan dat na een bepaald punt de correlatie tussen model-surprisal en leestijd afneemt.

De auteurs stellen de vraag: Waarom worden de meest geavanceerde taalmodellen slechter in het voorspellen van leestijd, terwijl ze statistisch gezien "perfecter" worden in het modelleren van taal?

Methodologie

De auteurs testen de hypothese dat leestijd voornamelijk gevoelig is voor lagere-orde $n$ -gram statistieken (1-gram, 2-gram, 3-gram) in plaats van de complexe, langere contextuele afhankelijkheden die moderne neurale modellen leren.

Het onderzoek bestaat uit drie experimenten:

Experiment 1: Correlatie van $n$ -gram surprisal met leestijd.
- Data: Berekening van $n$ -gram surprisal (negatieve log-probabiliteit) voor woorden in zes grote corpora (van 10 miljard tot 4,6 biljoen tokens), waaronder OpenWebText, C4, The Pile, Dolma, DCLM en OLMo-Mix.
- Doel: Het analyseren van de correlatie tussen $n$ -gram surprisal (voor $n=1$ tot $5$) en vier leestijd-metrics uit het Provo Corpus (een oogbewegingsdataset): First Fixation Duration, First Pass Duration, Go-Past Duration en Total Duration.
- Analyse: Onderzoek naar of de correlatie afneemt naarmate het corpus groter wordt (inverse schaling) voor verschillende $n$ -gram-orde.
Experiment 2: Trainingstijd en de Pythia-modellen.
- Data: Gebruik van de Pythia-serie (10 autoregressieve Transformer-modellen, van 14M tot 12B parameters) getraind op The Pile.
- Methode: Analyse van de correlatie tussen de surprisal van deze modellen en leestijd, vergeleken met de correlatie tussen de model-surprisal en de $n$ -gram surprisal gedurende het trainingsproces.
- Doel: Bepalen of het moment waarop een model het beste presteert in het voorspellen van leestijd samenvalt met het moment waarop het model het meest lijkt op lagere-orde $n$ -gram statistieken.
Experiment 3: Generalisatie over modellen en datasets.
- Data: Replicatie met extra modellen (Open GPT-2 en Gemstone) en een extra dataset (GECO, een corpus met monolinguale en bilinguale lezers).
- Methode: Onderzoek naar de relatie tussen de correlatie (Model Surprisal vs. Leestijd) en de correlatie (Model Surprisal vs. $n$ -gram Surprisal) over verschillende modelarchitecturen en datasets heen.

Belangrijkste Resultaten

Dominantie van lagere-orde $n$ -grams: Er is een sterke correlatie gevonden tussen leestijd en 1-gram (woordfrequentie) en 2-gram (bigram) surprisal. Hogere-orde $n$ -grams (3, 4, 5) tonen een progressief lagere correlatie met leestijd.
Inverse schaling beperkt tot hoge-orde: De "inverse scaling" (afname van correlatie bij grotere datasets) treedt voornamelijk op bij hogere-orde $n$ -grams. Voor 1- en 2-grams verbetert de correlatie zelfs lichtjes met grotere corpora.
Synchrone piek in correlatie: In Experiment 2 bleek dat de correlatie tussen de surprisal van neurale modellen en leestijd piekt op het moment dat de surprisal van het model het sterkst correleert met 2-gram en 3-gram statistieken. Zodra het model verder traint en meer complexe patronen leert (afwijkend van $n$ -grams), daalt de correlatie met leestijd.
Robuustheid: Experiment 3 bevestigt dat dit patroon consistent is over verschillende modelarchitecturen (Pythia, GPT-2, Gemstone) en datasets (Provo, GECO). Modellen die voorspellingen doen die meer lijken op $n$ -gram statistieken, voorspellen leestijd beter dan modellen die "te goed" zijn in next-word prediction.

Belangrijkste Bijdragen

Uitleg van Inverse Scaling: De paper biedt een empirisch onderbouwd mechanisme voor de inverse scaling effect: moderne taalmodellen worden "te goed" omdat ze statistieken leren die verder gaan dan wat menselijke lezers nodig hebben voor het plannen van oogbewegingen. Menselijke leestijd is gevoelig voor lokale, lagere-orde statistieken ( $n$ -grams), terwijl grote modellen complexe, langere contexten modelleren die minder relevant zijn voor de initiële verwerking van een woord.
Koppeling aan E-Z Reader Model: De auteurs koppelen hun bevindingen aan het E-Z Reader model van leesgedrag. Volgens dit model begint de motorplanning voor de volgende saccade zodra het orthografische formaat van het woord is geïdentificeerd. Dit proces (reflektend in First Pass Duration) is waarschijnlijk gebaseerd op oppervlakkige statistische patronen ( $n$ -grams) en niet op diepgaande semantische integratie (die later plaatsvindt, gerelateerd aan de N400-component in EEG).
Praktische Implicatie: Voor psycholinguïstisch onderzoek is het niet noodzakelijk om de grootste en krachtigste taalmodellen te gebruiken. Integendeel, modellen die beperkter zijn in hun context of die meer lijken op $n$ -gram statistieken, kunnen menselijk leesgedrag beter voorspellen.

Betekenis en Conclusie

De studie concludeert dat N-gram-achtige taalmodellen leestijd het beste voorspellen. Dit suggereert dat de menselijke leessysteem bij het plannen van oogbewegingen (saccades) voornamelijk reageert op lokale, lagere-orde statistische onzekerheid, en niet op de complexe, incrementele voorspellingen die door state-of-the-art Transformers worden gegenereerd.

De bevindingen verduidelijken dat de "perfectie" van moderne taalmodellen in next-word prediction juist leidt tot een disconnectie met menselijk leesgedrag, omdat ze de beperkte, lokale aard van de menselijke verwerking tijdens het lezen overschrijden. Dit biedt een nieuwe richting voor het bouwen van cognitief plausibele modellen: in plaats van alleen te streven naar maximale perplexiteit, zou men moeten kijken naar modellen die de juiste balans vinden in het modelleren van lokale statistieken.

N-gram-like Language Models Predict Reading Time Best

Het Probleem: De "Te Slimme" Voorspeller

De Oplossing: De "N-gram" Simpelheid

Wat hebben ze bewezen?

Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance