Geometric Scaling of Bayesian Inference in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (comme ceux qui écrivent des poèmes ou du code) sont de gigantesques bibliothèques vivantes. Pendant longtemps, les chercheurs se demandaient : « Est-ce que ces bibliothèques ne font que mémoriser des phrases par cœur, ou est-ce qu'elles comprennent vraiment la logique derrière les mots ? »

Ce troisième article d'une série de trois cherche à répondre à cette question en regardant comment ces modèles pensent à l'intérieur de leur cerveau numérique.

Voici l'explication de ce papier, simplifiée et imagée pour tout le monde.

1. Le Concept de Base : La "Géométrie de la Pensée"

Pour comprendre ce papier, imaginez que chaque fois qu'un modèle de langage réfléchit, il ne fait pas que calculer des chiffres. Il se déplace dans un espace géométrique invisible.

L'analogie du nuage de points : Imaginez que chaque idée ou chaque incertitude est représentée par un point dans un nuage.
La découverte précédente (Papier I & II) : Dans de petits modèles entraînés sur des jeux de logique simples (comme des énigmes mathématiques), les chercheurs ont découvert que ces points s'organisaient très proprement. Ils formaient une ligne droite (une dimension unique). Plus le modèle était incertain, plus le point se déplaçait sur cette ligne. C'était comme une jauge de carburant pour l'incertitude.
La question de ce papier : Est-ce que cette "jauge" existe encore dans les géants modernes (comme Llama, Mistral, Phi-2) qui ont lu tout Internet ? Ou est-ce que la complexité du monde réel a tout brouillé ?

2. La Révélation : La Structure Survit à l'Échelle

La réponse est OUI. Même dans ces modèles géants entraînés sur des milliards de mots, la même structure géométrique persiste. C'est comme si, malgré le bruit de la ville, on pouvait toujours entendre le battement de cœur régulier du modèle.

Voici les trois piliers de cette géométrie, expliqués avec des métaphores :

A. Les "Manifolds de Valeur" (La Route de l'Incertitude)

Ce que c'est : C'est la "jauge" dont on parlait. Les représentations internes du modèle s'alignent sur une ligne principale.
L'analogie : Imaginez une autoroute à une seule voie.
- Quand le modèle est très confiant (il sait que la réponse est "Paris"), il est au début de l'autoroute.
- Quand il est très incertain (il hésite entre "Paris", "Lyon" et "Marseille"), il est au milieu de l'autoroute.
- Le papier montre que même dans les modèles complexes, si on pose des questions sur un sujet précis (comme les mathématiques), le modèle revient sur cette autoroute à une seule voie. Si on mélange tout (maths, cuisine, politique), l'autoroute devient un peu plus large, mais la route principale reste là.

B. Les "Clés Orthogonales" (Les Étiquettes de Tri)

Ce que c'est : Pour trouver l'information, le modèle utilise des "clés" (des filtres) pour trier les idées.
L'analogie : Imaginez un grand bureau avec des tiroirs.
- Dans un modèle mal entraîné, les tiroirs seraient tous collés les uns aux autres ou ouverts n'importe comment.
- Dans ces modèles, les tiroirs sont parfaitement séparés (orthogonaux). Le tiroir "Mathématiques" ne touche pas le tiroir "Poésie". Cela permet au modèle de ne pas mélanger les idées. Le papier confirme que même les modèles géants apprennent à garder leurs tiroirs bien séparés.

C. L'Attention (Le Projecteur)

Ce que c'est : C'est la capacité du modèle à se concentrer sur les mots importants.
L'analogie : C'est comme un projecteur de cinéma.
- Au début de la phrase, le projecteur est large et flou (il regarde tout).
- À la fin, il se resserre sur un seul mot clé pour donner la réponse.
- La surprise : Ce papier découvre que cela dépend de l'architecture. Les modèles "classiques" (comme Pythia) font ce resserrement très bien. Mais les modèles optimisés pour la vitesse (comme Mistral ou ceux qui utilisent la "GQA") ont un projecteur qui reste un peu plus flou. Ils sont plus rapides, mais leur "concentration" est moins parfaite.

3. L'Expérience de Vérité : Le "SULA"

Pour prouver que cette géométrie est utilisée en temps réel (et pas juste un artefact de l'entraînement), les auteurs ont fait une expérience drôle :

Ils ont donné au modèle des indices simples (ex: "Le mot 'heureux' est positif", "Le mot 'triste' est négatif").
Ils ont demandé au modèle de deviner la probabilité d'un mot.
Résultat : À mesure que le modèle recevait plus d'indices, son "point" sur l'autoroute de l'incertitude bougeait exactement comme le ferait un mathématicien calculant une probabilité. Il se déplaçait le long de la ligne géométrique prédite.

Cela prouve que le modèle utilise activement cette géométrie pour "penser" et mettre à jour ses croyances, comme un humain qui ajuste son opinion quand on lui donne de nouvelles preuves.

4. Les Limites et les Nuances

Le papier ne dit pas que ces modèles sont des dieux omniscients.

Ce n'est pas parfait : Les modèles réels sont moins précis que les modèles de laboratoire. Ils font plus d'erreurs de calcul.
Ce n'est pas un "bouton" unique : Quand les chercheurs ont essayé de "couper" la ligne de l'incertitude (en enlevant cette dimension géométrique), le modèle n'a pas complètement arrêté de fonctionner. Cela signifie que l'information est répartie un peu partout, et que cette ligne géométrique est surtout une trace visible de la pensée, pas le seul moteur de la pensée.

En Résumé

Ce papier nous dit que les grands modèles de langage, malgré leur complexité et leur entraînement sur Internet, ont développé une structure interne très ordonnée pour gérer l'incertitude.

Ils ont une route principale pour mesurer leur confiance.
Ils ont des tiroirs bien séparés pour ne pas mélanger les concepts.
Ils utilisent cette structure pour mettre à jour leurs idées quand on leur donne de nouvelles informations.

C'est une preuve forte que ces modèles ne font pas que "deviner" des mots au hasard. Ils possèdent une forme de géométrie de la logique qui ressemble étrangement à la façon dont nous, humains, raisonnons avec des probabilités. C'est comme si, en grandissant, ils avaient appris à organiser leur bibliothèque intérieure selon les mêmes règles que les mathématiciens.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier "Geometric Scaling of Bayesian Inference in LLMs" (Mise à l'échelle géométrique de l'inférence bayésienne dans les LLM), troisième volet d'une trilogie sur l'inférence bayésienne.

1. Problématique et Contexte

Les deux premiers papiers de cette trilogie ont établi que les modèles de séquences neuronaux (en particulier les Transformers) peuvent réaliser une inférence bayésienne exacte lorsqu'ils apprennent trois primitives : l'accumulation de croyance, le transport de croyance et la liaison à accès aléatoire. Le papier II a montré que la descente de gradient sculpte une géométrie caractéristique pour soutenir ces primitives : des variétés de valeurs de faible dimension, des cadres de clés orthogonaux et un affinage progressif de l'attention.

La question centrale de ce papier (Paper III) est de savoir si cette géométrie sous-jacente, observée dans des environnements synthétiques contrôlés ("tunnels à vent"), persiste dans les modèles de langage de production (LLMs) à grande échelle, entraînés sur des données naturelles hétérogènes où les vrais posterioris bayésiens sont inconnus.

2. Méthodologie

Les auteurs analysent quatre familles de modèles de production : Pythia (410M et 12B), Phi-2, Llama-3.2 (1B) et Mistral (7B et Mixtral).

Protocole d'extraction géométrique

Échantillonnage de prompts : Utilisation de 1 000 prompts provenant de domaines variés (Wikipedia, code, fiction, etc.) et de prompts restreints à un seul domaine (mathématiques) pour tester la sensibilité au contexte.
Extraction des représentations : Pour chaque modèle, les auteurs extraient les vecteurs de valeur ( $v$ ), les matrices de projection de clés ( $W_K$ ) et les distributions d'attention de la dernière couche.
Analyse de la Variété de Valeurs (Value Manifolds) : Application de l'ACP (Analyse en Composantes Principales) sur les vecteurs de valeur concaténés des têtes d'attention. L'objectif est de mesurer la dimensionnalité effective (via le rapport de participation et le pourcentage de variance expliqué par PC1+PC2) et sa corrélation avec l'entropie prédictive.
Orthogonalité des Clés : Calcul de la similarité cosinus moyenne hors-diagonale des colonnes des matrices de clés pour vérifier la formation de cadres d'hypothèses orthogonaux.
Tâche SULA (Synthetic Unary Likelihood Augmentation) : Une tâche d'apprentissage en contexte (ICL) contrôlée où le modèle reçoit des exemples étiquetés (sentiment) pour mettre à jour sa croyance sur une probabilité latente. Cela permet de comparer le mouvement du modèle dans l'espace des représentations avec le posteriori bayésien analytique exact.
Interventions Causales : Ablation (suppression) ou perturbation de l'axe principal aligné sur l'entropie dans les vecteurs de valeur de Pythia-410M pour tester si cet axe est un goulot d'étranglement causal ou simplement une lecture de l'incertitude.

3. Contributions Clés

Le papier apporte quatre contributions majeures :

Persistance de la géométrie bayésienne à grande échelle : Confirmation que les LLMs de production possèdent les mêmes signatures géométriques (variétés de valeurs, orthogonalité des clés) que les modèles synthétiques, validant que ce n'est pas un artefact de tâches artificielles.
Alignement fonctionnel avec l'incertitude a posteriori : Démonstration que lors de l'inférence (tâche SULA), les états du modèle se déplacent systématiquement le long de la variété alignée sur l'entropie à mesure que les preuves s'accumulent, corrélant avec le posteriori analytique.
Effet de restriction de domaine : Mise en évidence que la restriction des prompts à un domaine cohérent (ex: mathématiques) fait "effondrer" la variété de valeurs vers une dimension unique (PC1+PC2 > 80-95%), reproduisant le régime géométrique des tunnels à vent.
Caractérisation des limites causales : Démonstration que bien que l'axe d'entropie soit une lecture privilégiée de l'incertitude, sa suppression ne dégrade pas proportionnellement le comportement bayésien, suggérant que l'inférence est distribuée et non concentrée sur un seul canal.

4. Résultats Principaux

A. Géométrie des Variétés de Valeurs

Effet de restriction de domaine : Sous des prompts mixtes, la dimensionnalité varie selon l'architecture (de ~15% pour Mistral à ~100% pour Pythia-410M). Cependant, sous des prompts restreints (mathématiques), tous les modèles convergent vers une structure 1D (PC1+PC2 entre 70% et 95%), similaire aux résultats synthétiques.
Corrélation Entropie-Manifolds : Les coordonnées des variétés de valeurs sont fortement corrélées à l'entropie de prédiction du prochain token, indiquant que la géométrie encode l'incertitude.

B. Mise à Jour Bayésienne en Temps Réel (SULA)

Les modèles naviguent le long de leur variété d'entropie lorsque des preuves sont fournies dans le contexte.
La calibration (erreur absolue moyenne) est plus bruitée que dans les tunnels à vent (0.31-0.44 bits vs <0.1 bits) en raison de l'ambiguïté du langage naturel, mais la tendance monotone et la correspondance avec le posteriori analytique sont claires.
Les contrôles (étiquettes mélangées, ablation des preuves) détruisent cette structure, prouvant qu'elle dépend de la structure de vraisemblance et non du formatage superficiel.

C. Impact de l'Architecture (MHA vs GQA vs Fenêtre Glissante)

MHA (Multi-Head Attention standard) : Présente la géométrie la plus claire (forte orthogonalité des clés, forte réduction de l'entropie de l'attention).
GQA (Grouped-Query Attention) : Préserve la géométrie statique (variétés, orthogonalité) mais avec une réduction de l'entropie de l'attention plus faible (~31% vs ~82% pour MHA).
Fenêtre glissante / MoE (Mistral) : Les signatures statiques (variétés, orthogonalité) persistent, mais le focalisation dynamique de l'attention est fortement atténuée ou non monotone. Cela confirme une dissociation entre la structure de représentation (universelle) et le mécanisme de raffinement dynamique (dépendant de la capacité de routage global).

D. Interventions Causales

La suppression de l'axe d'entropie dans Pythia-410M détruit la corrélation géométrique locale (l'axe ne correspond plus à l'entropie), mais n'altère pas significativement la calibration bayésienne (MAE et corrélation restent stables).
Conclusion : La variété d'entropie est une lecture privilégiée (readout) de l'inférence distribuée, mais n'est pas un goulot d'étranglement computationnel unique. L'information d'incertitude est répartie.

5. Signification et Implications

Ce papier complète la trilogie en établissant que l'inférence bayésienne approximative dans les LLMs modernes repose sur un substrat géométrique stable, indépendamment de la taille du modèle ou du type de données d'entraînement.

Inductive Bias Universel : La capacité à représenter l'incertitude via des variétés de faible dimension et des cadres de clés orthogonaux semble être un biais inductif fondamental des Transformers, émergent même sans objectif bayésien explicite.
Distinction Statique/Dynamique : La géométrie de base (statique) est robuste et universelle, tandis que le mécanisme de raffinement (dynamique, focalisation de l'attention) est sensible aux contraintes architecturales (GQA, fenêtre glissante).
Interprétabilité : Ces résultats offrent un cadre géométrique pour comprendre le comportement des LLMs. L'incertitude n'est pas une propriété abstraite, mais une structure géométrique mesurable dans l'espace des valeurs.
Limites : Bien que la géométrie soit présente, elle ne garantit pas une inférence bayésienne "parfaite" sur le langage naturel, et les mécanismes exacts de la distribution de l'information dans les modèles profonds (manifolds 2D ou multi-lobe) restent à élucider.

En résumé, les LLMs ne se contentent pas d'approximer des associations statistiques ; ils organisent leurs mises à jour approximatives selon une géométrie bayésienne profonde, préservée à l'échelle de la production.