N-gram-like Language Models Predict Reading Time Best

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette recherche, imagée avec des métaphores du quotidien.

Le Paradoxe du Super-Prévisionneur

Imaginez que vous essayez de prédire la prochaine phrase d'une histoire.
Il y a quelques années, les chercheurs pensaient que plus votre "moteur de prédiction" (un modèle de langage) était intelligent, puissant et avait lu plus de livres, mieux il prédirait ce que vous, les humains, alliez lire ensuite.

C'est comme si vous pensiez qu'un détective ultra-avancé, ayant lu tous les manuels de police, serait le meilleur pour deviner ce qu'un voleur va faire ensuite.

Mais la réalité est plus étrange :
Les chercheurs ont découvert que lorsque ces modèles deviennent trop intelligents (comme les Transformers modernes), ils deviennent paradoxalement moins bons pour prédire le temps que nous mettons à lire un mot. Plus ils sont puissants, moins leur prédiction correspond à la vitesse de lecture humaine. C'est ce qu'on appelle un "effet d'échelle inverse".

L'Hypothèse : Le Cerveau n'est pas un Super-Ordinateur

Pourquoi cela arrive-t-il ? Les auteurs de cette étude (James Michaelov et Roger Levy) proposent une idée fascinante : Notre cerveau, quand nous lisons, ne fonctionne pas comme un super-ordinateur complexe.

Au lieu de cela, notre cerveau se fierait à des règles très simples, presque enfantines, qu'ils appellent des statistiques N-grammes.

L'analogie du "Jeux des 3 cartes" :
Imaginez que vous jouez à un jeu de cartes où vous devez deviner la prochaine carte.

Le modèle complexe (Transformer) : Il analyse l'histoire entière, le contexte, les sentiments, la grammaire complexe et la logique profonde pour deviner la carte.
Le cerveau humain (selon cette étude) : Il regarde simplement les deux ou trois cartes précédentes et dit : "Ah, quand j'ai vu un 'Chat' suivi de 'Noir', la prochaine est souvent 'Chat' ou 'Mignon'. Je vais parier là-dessus."

Le modèle complexe, en voulant être trop précis, oublie ces petits raccourcis simples que notre cerveau utilise instinctivement pour lire vite. Il devient "trop bon" pour le contexte global, mais il rate le rythme rapide de nos yeux.

L'Expérience : La Course des Modèles

Les chercheurs ont fait une expérience comme une course de voitures :

Ils ont pris des modèles de langage de différentes tailles (du petit au géant).
Ils ont regardé comment ils apprenaient.
Résultat : Au début de l'entraînement, les modèles apprennent d'abord les règles simples (les N-grammes). À ce moment-là, ils correspondent parfaitement à la vitesse de lecture humaine.
Ensuite, ils apprennent des règles trop complexes. À ce moment-là, ils se détachent de la réalité humaine : ils deviennent si bons en théorie qu'ils ne correspondent plus à la façon dont nos yeux bougent sur la page.

C'est comme si un coureur de marathon commençait à courir trop vite : il finit par trébucher parce qu'il a oublié les bases de la marche.

Pourquoi est-ce important ?

Cette étude nous dit quelque chose de profond sur la façon dont nous lisons :

La lecture est une course de vitesse locale. Quand nos yeux se posent sur un mot, nous ne faisons pas une analyse profonde de tout le livre. Nous utilisons des "raccourcis" statistiques basés sur les mots qui viennent juste avant (le mot précédent, le mot d'avant).
Les modèles IA actuels sont trop "profonds". Pour prédire notre temps de lecture, il ne faut pas un modèle qui comprend tout l'univers, mais un modèle qui est excellent pour voir les petits motifs immédiats (comme "le chat" -> "noir").

En résumé

Imaginez que lire est comme conduire une voiture dans une ville dense.

Les modèles de langage géants sont comme des pilotes de Formule 1 qui calculent la trajectoire parfaite en tenant compte de la météo, de l'usure des pneus et du trafic à 10 km à l'avance. C'est impressionnant, mais ça ne correspond pas à la façon dont un conducteur moyen réagit aux freinages soudains juste devant lui.
Les modèles N-grammes (les plus simples) sont comme le conducteur moyen qui regarde juste le pare-chocs de la voiture devant lui.

La conclusion ? Pour comprendre comment nous lisons, il faut arrêter de chercher le modèle le plus intelligent du monde et revenir aux modèles qui sont "juste assez intelligents" pour voir les petits motifs immédiats. C'est souvent la simplicité qui imite le mieux la nature humaine.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La recherche en psycholinguistique computationnelle a longtemps établi une corrélation entre la probabilité d'un mot dans un contexte (mesurée par le surprisal, ou négatif du logarithme de la probabilité) et le temps de lecture de ce mot. Historiquement, les modèles statistiques simples (comme les bigrammes) prédisaient bien ce phénomène.

Cependant, avec l'avènement des modèles de langage neuronaux modernes (RNN, Transformers), une tendance initiale suggérait que des modèles plus puissants (plus de paramètres, plus de données d'entraînement) amélioraient la prédiction des temps de lecture. Récemment, des travaux ont mis en évidence un effet d'inverse scaling : au-delà d'un certain seuil de performance en prédiction du mot suivant, les modèles de langage les plus avancés (notamment les Transformers entraînés sur des corpus massifs) deviennent moins capables de prédire les temps de lecture humains. Leurs prédictions de surprisal divergent des données oculométriques, sous-estimant la difficulté de traitement de certains mots (notamment les mots de classe ouverte à faible fréquence).

Hypothèse centrale de l'article : Les temps de lecture humains ne sont pas sensibles aux statistiques complexes et à long terme apprises par les modèles de langage modernes, mais plutôt aux statistiques de bas ordre (N-grammes de faible ordre, $n \in \{1, 2\}$ ). Les modèles neuronaux ne prédisent bien les temps de lecture que dans la mesure où leurs prédictions ressemblent à celles de ces N-grammes simples.

2. Méthodologie

Les auteurs ont mené trois expériences pour tester cette hypothèse en utilisant des corpus de lecture oculométrique (eye-tracking) et divers modèles de langage.

Données et Mesures

Corpus de lecture : Utilisation du Provo Corpus (470 participants, 55 passages) et du GECO (Ghent Eye-Tracking Corpus).
Métriques de temps de lecture :
- First Fixation Duration (FFD) : Durée de la première fixation.
- First Pass Duration (FPD) : Durée du premier passage sur le mot.
- Go-Past Duration (GPD) : Durée incluant les retours en arrière (regressions).
- Total Duration : Durée totale de fixation.
Corpus d'entraînement pour les N-grammes : Six corpus de tailles variées (de 10 milliards à 4,6 billions de tokens) : OpenWebText, C4, The Pile, Dolma, DCLM, OLMo-Mix.

Expérience 1 : Corrélation N-gramme vs Temps de lecture

Calcul du surprisal pour des N-grammes ( $n=1$ à $5$) sur les six corpus.
Analyse de la corrélation entre le surprisal N-gramme et les métriques de temps de lecture.
Objectif : Vérifier si les N-grammes de bas ordre ( $n=1, 2$ ) maintiennent une forte corrélation avec les temps de lecture, indépendamment de la taille du corpus, contrairement aux N-grammes d'ordre supérieur.

Expérience 2 : Dynamique d'entraînement et alignement (Pythia)

Utilisation de la suite de modèles Pythia (Transformers de 14M à 12B de paramètres) entraînés sur le corpus The Pile.
Analyse des checkpoints d'entraînement pour observer l'évolution de la corrélation entre le surprisal du modèle et :
1. Les temps de lecture.
2. Les surprisals des N-grammes (unigramme, bigramme, trigramme).
Objectif : Déterminer si le pic de corrélation avec les temps de lecture coïncide avec le moment où le modèle apprend le mieux les N-grammes de bas ordre.

Expérience 3 : Généralisation (Multi-modèles et Multi-datasets)

Répétition de l'analyse avec d'autres familles de modèles (Open GPT-2, Gemstone) et sur le corpus GECO.
Objectif : Valider la robustesse de la relation entre la "ressemblance aux N-grammes" d'un modèle et sa capacité à prédire les temps de lecture.

3. Résultats Clés

A. Supériorité des N-grammes de bas ordre (Expérience 1)

Les unigrammes et bigrammes montrent les corrélations les plus élevées avec les métriques de temps de lecture (notamment FPD et GPD).
Les N-grammes d'ordre supérieur ( $n \ge 3$ ) voient leur corrélation diminuer progressivement.
Effet d'échelle : Pour les N-grammes de bas ordre, l'augmentation de la taille du corpus entraîne une légère amélioration ou une stabilité de la corrélation. À l'inverse, pour les N-grammes d'ordre supérieur, une taille de corpus massive peut parfois réduire la corrélation (inverse scaling), suggérant que les statistiques complexes ne sont pas le moteur principal de la prédiction du temps de lecture.

B. Alignement dynamique (Expérience 2)

Il existe une forte synchronisation entre la corrélation du surprisal d'un modèle de langage avec les temps de lecture et sa corrélation avec les N-grammes de bas ordre.
Point de pic : La corrélation avec les temps de lecture atteint son maximum lorsque le modèle est le plus proche des statistiques des bigrammes (pour FPD/GPD) ou trigrammes (pour FFD/Total Duration).
Divergence : À mesure que l'entraînement se poursuit au-delà de ce point (le modèle devient "trop bon" en prédiction de mots), la corrélation avec les temps de lecture diminue, tout comme la corrélation avec les N-grammes de bas ordre. Le modèle commence à apprendre des structures statistiques plus complexes qui ne reflètent pas le traitement cognitif humain en temps réel.

C. Robustesse (Expérience 3)

La relation observée est générale : quelle que soit l'architecture (Pythia, GPT-2, Gemstone) ou le corpus de lecture (Provo, GECO), les modèles dont les prédictions ressemblent le plus aux N-grammes de bas ordre prédisent le mieux les temps de lecture.
Les coefficients de corrélation entre "corrélation LM-N-gramme" et "corrélation LM-Temps de lecture" sont très élevés (souvent > 0.9).

4. Contributions Principales

Explication de l'Inverse Scaling : L'article propose une explication mécaniste à l'effet d'inverse scaling observé précédemment : les modèles de langage modernes deviennent "trop bons" car ils apprennent des statistiques de haut niveau qui s'éloignent des statistiques de bas ordre (N-grammes) auxquelles le système de lecture humain est sensible.
Hypothèse de sensibilité aux N-grammes : Démontre empiriquement que les temps de lecture sont principalement pilotés par des statistiques locales (unigrammes/bigrammes) plutôt que par des prédictions contextuelles profondes et complexes.
Validation transversale : Prouve que ce phénomène n'est pas spécifique à un modèle ou un jeu de données, mais est une propriété fondamentale de la relation entre les modèles de langage et le comportement de lecture humain.

5. Signification et Implications

Pour la psycholinguistique : Ces résultats soutiennent l'idée que le processus de lecture (en particulier la planification des saccades et la première identification orthographique) repose sur des prédictions basées sur des motifs statistiques locaux et superficiels, plutôt que sur une compréhension sémantique profonde et contextuelle immédiate. Cela s'aligne avec des modèles comme E-Z Reader, où la planification du mouvement oculaire suit l'identification orthographique, un processus qui ne nécessite pas un traitement contextuel complet.
Pour l'IA et les Modèles de Langage : Cela suggère que pour modéliser le comportement humain en temps réel (comme le temps de lecture), il ne faut pas nécessairement viser la perplexité la plus faible ou les modèles les plus grands. Au contraire, des modèles avec des biais d'induction limitant le contexte ou favorisant les statistiques locales (ou des modèles de taille "humaine") pourraient être plus cognitivement plausibles pour certaines tâches.
Limites et Nuances : L'article note que les modèles neuronaux prédisent parfois mieux les temps de lecture que les N-grammes bruts, suggérant qu'ils apprennent peut-être des fonctions de lissage supérieures ou capturent d'autres propriétés (comme la similarité sémantique) que les N-grammes bruts ne voient pas. Cependant, le cœur de la prédiction reste ancré dans les statistiques de bas ordre.

En conclusion, l'article démontre que la capacité d'un modèle de langage à prédire les temps de lecture humains est directement proportionnelle à la mesure dans laquelle ses prédictions ressemblent à celles d'un modèle N-gramme de bas ordre, et que l'amélioration excessive des modèles modernes conduit à une divergence avec la cognition humaine en lecture.