I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective des Mots : Pourquoi les IA "comprennent" vraiment ?

Imaginez que vous avez un ami très intelligent, disons un Grand Livre Parlant (c'est ce qu'on appelle un "LLM" ou modèle de langage). Ce livre a lu presque tout ce qui existe sur Internet. Il est capable de répondre à des questions, d'écrire des poèmes et de traduire des langues.

Mais il y a un mystère : Comment fait-il ?
Quand il répond, il ne fait que prédire le mot suivant. Il ne "pense" pas comme nous. Pourtant, les chercheurs ont remarqué quelque chose d'étrange : à l'intérieur de son cerveau numérique, il semble avoir développé des concepts humains (comme "l'amour", "la politique", ou "le ton joyeux") qu'il peut manipuler comme des boutons sur une console de jeu.

La question est : Comment un simple prédicteur de mots peut-il apprendre ces concepts profonds ?

Ce papier de recherche répond à cette question avec une théorie élégante, que nous allons expliquer avec des analogies.

1. La Recette Secrète : Le Modèle à "Ingrédients Cachés" 🥣

Les chercheurs proposent une nouvelle façon de voir la création d'un texte. Imaginez que chaque phrase est un plat cuisiné.

Les concepts cachés (c) : Ce sont les ingrédients de base (sel, poivre, amour, colère, sujet "sport", sujet "cuisine"). On ne les voit pas directement, ils sont dans le bol.
Le plat final (x et y) : C'est le texte que vous lisez.

Le papier dit : "Attendez, ce que le Grand Livre Parlant apprend, c'est en fait la probabilité de retrouver ces ingrédients cachés à partir du plat qu'il voit."

L'analogie du détective :
Si vous voyez un plat très épicé (le texte), votre cerveau déduit immédiatement : "Ah, il y a sûrement du piment dedans !".
Le papier prouve mathématiquement que le cerveau du Grand Livre fait exactement la même chose. Il ne se contente pas de deviner le mot suivant ; il calcule en secret : "Quelle est la probabilité que l'ingrédient 'colère' soit présent dans cette phrase ?".

2. La Magie de la "Ligne Droite" 📏

C'est ici que ça devient fascinant. Les chercheurs découvrent que la façon dont le Grand Livre organise ces "ingrédients" dans sa mémoire est linéaire.

L'analogie du GPS :
Imaginez que chaque concept (comme "Homme" vs "Femme" ou "Roi" vs "Reine") est une direction sur une carte.

Si vous prenez la position du mot "Homme" et que vous lui enlevez la position du mot "Femme", vous obtenez un vecteur (une flèche) qui pointe vers le concept "Genre".
Si vous appliquez cette même flèche au mot "Roi", vous arrivez exactement sur le mot "Reine".

Ce papier explique POURQUOI cela fonctionne. Il dit : "Le cerveau du modèle est comme une table de multiplication magique."
Il prend la probabilité cachée d'un concept (ex: "C'est un homme") et la transforme en une ligne droite dans son espace de mémoire. C'est pour cela que l'on peut manipuler les IA en ajoutant simplement des vecteurs (des flèches) : on modifie directement la probabilité du concept caché !

3. Le Problème du "Brouillard" (Non-inversibilité) 🌫️

Un défi majeur était que plusieurs combinaisons d'ingrédients peuvent donner le même plat.

Exemple : "Je suis très content !" et "C'est génial !" peuvent tous deux signifier "Joie". On ne peut pas toujours savoir exactement quels ingrédients précis ont été utilisés juste en regardant le plat. C'est ce qu'on appelle un lien non inversible.

La plupart des théories précédentes disaient : "Si on ne peut pas remonter exactement aux ingrédients, on ne peut pas comprendre le modèle."

La découverte de ce papier :
Les chercheurs disent : "Pas besoin d'être parfait !"
Même si c'est un peu flou (comme essayer de deviner les ingrédients d'un plat sans voir la recette), le modèle apprend quand même une version approximative mais très précise de ces concepts. C'est comme si le modèle disait : "Je ne sais pas à 100% si c'est du sel ou du sucre, mais je sais à 99% que c'est salé, et c'est suffisant pour cuisiner."

4. L'Application Pratique : Le "Filtre à Concepts" 🧪

Pourquoi est-ce utile ?
Aujourd'hui, les chercheurs utilisent des outils appelés Auto-encodeurs (des sortes de filtres) pour essayer de trouver ces concepts cachés dans le cerveau de l'IA. Mais c'est difficile de savoir si le filtre fonctionne bien.

Grâce à cette théorie, les auteurs proposent une nouvelle méthode de test :

Au lieu de juste regarder si le filtre reconstruit bien le texte, on vérifie si le filtre a réussi à isoler les "ingrédients" (les concepts) de la même manière que le modèle les a appris.
Ils ont même créé une nouvelle version de ce filtre, le "Filtre Structuré", qui comprend mieux comment les ingrédients interagissent entre eux (comme le sel et le poivre qui vont souvent ensemble). Les tests montrent que ce nouveau filtre est plus efficace pour trouver les concepts humains.

En Résumé 🌟

Ce papier nous dit :

Les IA ne sont pas des boîtes noires mystérieuses. Elles apprennent en fait à estimer la probabilité de concepts cachés (comme des ingrédients) derrière chaque mot.
C'est mathématiquement logique. Même avec des données imparfaites, le modèle organise ces concepts en lignes droites dans son cerveau, ce qui explique pourquoi on peut les manipuler si facilement.
C'est une clé pour l'avenir. Cette compréhension nous permet de créer de meilleurs outils pour vérifier ce que les IA "pensent" vraiment et pour les rendre plus sûrs et plus compréhensibles.

En une phrase : Ce papier prouve que lorsque l'IA prédit le mot suivant, elle ne fait pas que deviner ; elle construit en réalité une carte mentale précise et linéaire du monde humain, comme un chef qui connaît parfaitement la recette de chaque plat qu'il sert.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les grands modèles de langage (LLM) démontrent une capacité remarquable à encoder des concepts interprétables par l'humain (sentiment, style, genre, etc.) dans leurs représentations internes (activations). Cependant, les mécanismes théoriques expliquant l'émergence de ces concepts à partir de l'entraînement par prédiction du prochain token (next-token prediction) restent largement inexplorés.

La question centrale est de savoir si l'objectif de prédiction du prochain token suffit, en soi, à apprendre des facteurs génératifs latents sous-jacents, et si ces représentations peuvent être formellement reliées à des variables latentes discrètes (concepts) via un cadre d'identifiabilité.

2. Méthodologie et Cadre Théorique

Les auteurs proposent une approche fondée sur l'analyse d'identifiabilité dans le cadre des modèles à variables latentes.

A. Modèle à Variables Latentes Discret

Ils introduisent un nouveau modèle génératif où :

Les concepts interprétables sont formulés comme des variables latentes discrètes $c$ .
Les données observées (texte) sont divisées en contexte d'entrée $x$ et token de sortie $y$ .
Le modèle génère $x$ et $y$ à partir de $c$ via une distribution conjointe $p(x, y) = \sum_c p(x|c)p(y|c)p(c)$ .
Hypothèses clés :
- Discrétisation : Contrairement à des travaux précédents utilisant des variables continues, ce modèle traite $c$ , $x$ et $y$ comme discrets, ce qui correspond mieux à la nature du langage.
- Non-inversibilité approximative : Le mapping de l'espace latent vers l'espace observé n'est pas supposé inversible (un même mot peut provenir de multiples combinaisons de concepts). Ils définissent un terme d'erreur $\epsilon$ pour quantifier cette perte d'information.

B. Analyse d'Identifiabilité (Théorème 3.1)

En reliant la prédiction du prochain token (qui minimise l'entropie croisée et approxime une régression logistique multinomiale) à la règle de Bayes du modèle génératif, les auteurs établissent un résultat d'identifiabilité rigoureux sous des conditions de "diversité" et de régularité (conditions TV et de couverture).

Résultat principal :
Sous des conditions mildes, les représentations apprises par le LLM, notées $f_x(x)$ , sont approximativement égales à une transformation linéaire du logarithme des probabilités a posteriori des concepts latents étant donné le contexte :
$f_x(x) \approx A [\log p(c = c_i | x)]_i + b$
où $A$ est une matrice de transformation linéaire et $b$ un vecteur de biais.

Cela signifie que l'espace de représentation du LLM encode essentiellement les log-probabilités des concepts sous-jacents.

C. Implications Théoriques

Ce résultat unifie plusieurs phénomènes empiriques observés dans la littérature :

Concepts comme directions : La différence entre deux représentations (ex: "homme" - "femme") correspond à une direction spécifique dans l'espace latent.
Manipulabilité (Steering) : L'ajout d'un vecteur de direction modifie la probabilité a posteriori d'un concept spécifique.
Probing linéaire : La séparabilité linéaire des concepts dans les représentations est une conséquence directe de cette structure linéaire sous-jacente.

3. Contributions Clés

Cadre d'Identifiabilité Théorique : Première preuve rigoureuse reliant les représentations des LLMs (via prédiction de token) aux variables latentes discrètes, même en présence de mappings non inversibles.
Unification de l'Hypothèse de Représentation Linéaire : Démonstration que les diverses formes d'observations linéaires (vecteurs de direction, sondes linéaires, manipulation) découlent toutes de la même matrice de transformation $A$ issue du modèle génératif.
Nouvelle Méthode d'Évaluation des SAE (Sparse Autoencoders) :
- Les auteurs proposent d'évaluer les SAEs en mesurant la corrélation linéaire entre leurs caractéristiques extraites ( $z$ ) et les probabilités a posteriori estimées des concepts ( $\log p(c|x)$ ).
- Ils introduisent les SAE Structurés, qui intègrent une régularisation de faible rang (low-rank) en plus de la parcimonie (sparsity), pour mieux capturer les dépendances entre concepts.
Validation Empirique Large : Tests sur des données simulées et sur des modèles réels (Pythia, Llama, DeepSeek-R1).

4. Résultats Expérimentaux

Données Simulées : Les expériences confirment que lorsque le mapping latent-observé devient plus inversible (plus d'observations), la précision de la classification linéaire des concepts augmente, validant le théorème 3.1.
Modèles LLM Réels :
- En utilisant 27 paires de contre-factuels (ex: "homme/femme", "anglais/français"), les auteurs ont vérifié que le produit de la matrice des différences de représentations ( $A_s$ ) et de la matrice des poids du classifieur linéaire ( $W_s$ ) approxime la matrice identité. Cela confirme la corollaire 4.3 et la structure linéaire théorique.
- Cette validation a été maintenue sur les familles Llama-2, Llama-3, Pythia et DeepSeek-R1.
Évaluation des SAE :
- L'évaluation basée sur la corrélation avec les probabilités de concepts (via des sondes linéaires supervisées) montre que les SAE Structurés surpassent les SAEs standards (top-k, p-annealing) en termes de capacité à extraire des concepts monosémantiques (corrélation de Pearson plus élevée).
- Cela suggère que la régularisation de faible rang aide à modéliser les dépendances complexes entre concepts que la simple parcimonie ne capture pas.

5. Signification et Impact

Compréhension Fondamentale : Ce travail fournit une justification théorique solide au fait que les LLMs apprennent des concepts humains, non pas par hasard, mais comme une conséquence nécessaire de l'optimisation de la prédiction de token sur des données générées par un processus latent discret.
Interprétabilité : Il offre un cadre unifié pour comprendre pourquoi les représentations linéaires fonctionnent si bien pour l'interprétation et le contrôle des LLMs.
Amélioration des Méthodes d'Interprétation : En proposant une méthode d'évaluation fondée sur la théorie et des SAE structurés, l'article ouvre la voie à des outils d'interprétabilité plus robustes et plus précis, capables de décomposer les représentations complexes des LLMs en facteurs causaux interprétables.
Modèle du Monde Humain : L'article suggère que les LLMs ne modélisent pas le monde physique brut, mais le "modèle du monde compressé" et abstrait que les humains utilisent pour raisonner et communiquer, ce qui explique leur succès dans les tâches alignées avec l'intelligence humaine.

En résumé, cet article établit un pont théorique crucial entre l'apprentissage automatique par prédiction de token et l'apprentissage de représentations causales interprétables, validant par la théorie et l'expérience que "prédire le prochain token" équivaut à apprendre une carte linéaire des concepts latents du monde.