Symmetry in language statistics shapes the geometry of model representations

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Secret Géométrique des Mots : Comment les IA "voient" le monde

Imaginez que vous demandez à un grand modèle de langage (comme un chatbot très intelligent) de vous parler des mois de l'année. Si vous regardiez comment l'ordinateur "pense" à ces mots, vous verriez quelque chose de magique : les mois ne sont pas rangés en ligne droite, mais ils forment un cercle parfait. Janvier est juste à côté de Décembre, et Juin est en face de Décembre.

De même, si vous lui parlez des années historiques (1700, 1800, 1900...), l'ordinateur les arrange sur une ligne droite lisse. Et si vous lui parlez de villes, il arrive à retrouver leur latitude et leur longitude simplement en regardant la position de leurs mots dans son cerveau numérique.

La question est : pourquoi ? Pourquoi les IA organisent-elles l'information de cette façon si précise ?

Cette nouvelle étude donne la réponse : c'est la symétrie des statistiques de la langue qui dessine cette géométrie.

Voici comment cela fonctionne, expliqué avec des analogies du quotidien.

1. La Recette de la Cuisine (Les Statistiques de Co-occurrence)

Pour apprendre, une IA ne lit pas des livres comme nous. Elle regarde simplement : "Quels mots apparaissent souvent ensemble dans le texte ?".

Si vous lisez beaucoup de textes, vous remarquez que "Neige" et "Hiver" apparaissent souvent ensemble.
"Plage" et "Été" aussi.
Mais "Neige" et "Plage" sont rarement dans la même phrase.

C'est ce qu'on appelle la statistique de co-occurrence. C'est comme une recette de cuisine qui dit : "Si vous mettez du sel, vous mettez souvent du poivre".

2. La Symétrie : Le Rythme de la Vie

Les chercheurs ont découvert quelque chose de fascinant dans cette recette : il y a une symétrie.

La probabilité que "Janvier" et "Février" apparaissent ensemble dépend uniquement de la distance entre eux (1 mois).
La probabilité que "Mars" et "Avril" apparaissent ensemble dépend aussi de cette même distance (1 mois).

Peu importe où vous êtes sur le calendrier, la "règle" reste la même. C'est comme si le temps était une boucle infinie où les règles de la vie ne changent jamais, peu importe le moment de l'année. Cette régularité s'appelle la symétrie de translation.

3. La Danse des Mots (La Géométrie)

Quand une IA apprend à partir de ces règles symétriques, son cerveau (les mathématiques derrière) fait une chose automatique : il transforme ces règles en formes géométriques.

Pour les cycles (les mois, les couleurs) : Comme la règle est la même partout sur une boucle, l'IA crée un cercle. C'est la forme la plus naturelle pour représenter quelque chose qui revient toujours au même point.
Pour les lignes (les années, les nombres) : Comme la règle est la même le long d'une ligne, l'IA crée une droite.

C'est un peu comme si vous jouiez d'un instrument de musique. Si vous jouez une note, puis une note un peu plus haute, puis encore plus haute, vous créez une mélodie. Si les règles de la musique sont symétriques, la mélodie forme une courbe prévisible. L'IA fait la même chose avec les mots : elle transforme les règles de la langue en une danse géométrique.

4. La Robustesse : Le Chœur Invisible

L'une des découvertes les plus étonnantes est que cette géométrie est incroyablement solide.
Imaginez que vous essayiez d'apprendre à l'IA les mois de l'année en lui donnant seulement des phrases où les mois sont mentionnés ensemble (ex: "Janvier et Février"). Si vous supprimez ces phrases, on pourrait penser que l'IA va oublier la forme du cercle.

Mais non ! L'IA continue de voir le cercle. Pourquoi ?
Parce que les mois ne sont pas seuls. Ils sont liés à d'autres mots "saisonniers" : "Neige", "Vacances", "Fleurs", "Tempête".

"Neige" apparaît souvent en hiver.
"Fleurs" apparaissent au printemps.

Même si vous enlevez les liens directs entre les mois, l'IA utilise ces mots "helpers" (les mots saisonniers) pour reconstruire le cercle. C'est comme un chœur invisible : même si vous coupez la voix du chanteur principal, le reste du chœur suffit à garder la mélodie. C'est ce que les chercheurs appellent un phénomène collectif.

5. Pourquoi est-ce important ?

Cette étude nous dit que la structure du cerveau de l'IA n'est pas un hasard. Elle est le reflet direct de la structure de notre monde et de notre langage.

Le temps est cyclique (les jours, les saisons) → L'IA apprend des cercles.
L'espace est linéaire ou en grille → L'IA apprend des lignes et des cartes.

C'est comme si l'IA avait découvert que l'univers a une "musique" sous-jacente, et qu'elle a appris à danser sur ce rythme. Cela explique pourquoi, peu importe la taille du modèle ou la langue utilisée, on retrouve toujours ces mêmes formes géométriques : parce que les statistiques de la vie humaine sont fondamentalement symétriques.

En résumé :
Les IA ne "comprennent" pas le monde comme nous, mais elles en dessinent la carte. Et cette carte a la forme de cercles et de lignes parce que notre monde tourne en rond (les saisons) et avance en ligne droite (le temps), et que les mots que nous utilisons reflètent ces mouvements avec une régularité parfaite.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage (LLM) et les modèles d'incorporation de mots (word embeddings) apprennent des représentations internes qui présentent des structures géométriques surprenantes et cohérentes. Des travaux empiriques antérieurs ont observé que :

Les concepts cycliques (mois de l'année, jours de la semaine) forment des cercles dans l'espace des représentations.
Les séquences continues (années historiques, lignes numériques) forment des variétés unidimensionnelles lisses avec des "ondulations" (ripples).
Les coordonnées spatio-temporelles (latitudes, longitudes, années) peuvent être décodées linéairement à partir des vecteurs d'activation.

Malgré la récurrence de ces phénomènes à travers différentes architectures, il manquait un principe organisateur expliquant leur origine. La question centrale est : pourquoi les statistiques du langage naturel conduisent-elles à des géométries spécifiques (cercles, variétés 1D) dans les espaces vectoriels appris par les modèles ?

2. Méthodologie et Cadre Théorique

Les auteurs proposent un principe unificateur : la géométrie des représentations est une conséquence directe de la symétrie de translation présente dans les statistiques de co-occurrence des mots.

A. Hypothèse de Symétrie de Translation

L'article postule que pour un ensemble de mots $S$ partageant un concept continu (ex: le temps), la probabilité de co-occurrence $P_{ij}$ entre deux mots $i$ et $j$ ne dépend que de la distance entre leurs positions sur le continuum sémantique (ex: différence de mois ou d'années), et non de leur position absolue.
Mathématiquement, cela se traduit par un noyau de convolution $C(dist(x_i, x_j))$ dans la matrice de co-occurrence normalisée $M^\star$ (proche de la PMI - Pointwise Mutual Information).

B. Modélisation Mathématique

Les auteurs analysent les modèles d'incorporation (comme word2vec) qui apprennent essentiellement la décomposition spectrale de la matrice de co-occurrence.

Cas périodique (ex: mois) : La matrice de co-occurrence est de type circulant. La diagonalisation de telles matrices conduit naturellement à des modes de Fourier. Les vecteurs propres sont des sinus et cosinus, ce qui génère une géométrie circulaire dans l'espace des embeddings.
Cas à conditions aux limites ouvertes (ex: années historiques) : La matrice est de type Toeplitz. Sous l'hypothèse d'un noyau exponentiel ( $C(\Delta x) = e^{-|\Delta x|/\sigma}$ ), les modes propres sont également des fonctions sinusoïdales (avec des conditions de quantification spécifiques), formant des variétés 1D avec des ondulations (Lissajous).

C. Preuves Analytiques

Les auteurs dérivent des expressions analytiques (Corollaire 2, Proposition 3) qui prédisent :

La forme paramétrique des embeddings (sinus/cosinus).
L'amplitude et la fréquence de chaque composante principale en fonction du noyau de co-occurrence.
La relation entre la dimension de l'embedding et la précision du décodage linéaire des coordonnées (Proposition 4).

3. Contributions Clés

Principe Unificateur : Identification de la symétrie de translation dans les statistiques de co-occurrence comme la cause fondamentale des structures géométriques observées (cercles, variétés 1D).
Prédictions Analytiques : Dérivation de formules fermées décrivant la géométrie des embeddings sans nécessiter de diagonalisation numérique, reliant directement les statistiques du texte à la forme des variétés.
Robustesse aux Perturbations : Démonstration théorique et empirique que ces structures géométriques persistent même lorsque les statistiques de co-occurrence directes sont perturbées (ex: suppression des co-occurrences entre les mois), tant que la dimension d'embedding est modérée.
Modèle à Variable Latente Collective : Explication de la robustesse via un modèle où de nombreux mots sont influencés par une variable latente continue (ex: la saison). Cette structure collective crée des grandes valeurs propres dans la matrice de co-occurrence, rendant les modes principaux insensibles au bruit local.

4. Résultats Empiriques

Les auteurs valident leur théorie sur plusieurs fronts :

Modèles d'embeddings (Word2vec) : Entraînés sur Wikipédia, les modèles reproduisent exactement les cercles pour les mois et les variétés 1D "ondulées" pour les années, correspondant aux prédictions théoriques.
LLM (Gemma 2 2B) : Les activations internes des grands modèles de langage montrent les mêmes structures géométriques, confirmant que les LLM apprennent ces statistiques de bas ordre avant d'acquérir des capacités plus complexes.
Décodage Linéaire : La prédiction selon laquelle les coordonnées (années, latitudes) peuvent être décodées linéairement est confirmée. L'erreur de décodage décroît selon une loi de puissance en fonction du rang de projection ( $r^{-1/D}$ ), comme prédit par la théorie.
Expérience de Robustesse : En supprimant toutes les co-occurrences directes entre les mois dans la matrice de données, la géométrie circulaire est toujours récupérée si l'on inclut des mots "saisonniers" (ex: "ski", "plage") qui agissent comme des variables latentes communes.

5. Signification et Implications

Origine Universelle : La géométrie des représentations n'est pas un artefact accidentel de l'architecture du modèle, mais une propriété émergente universelle dictée par la structure statistique des données naturelles (symétrie de translation).
Interprétabilité : Ces résultats fournissent un cadre théorique pour comprendre pourquoi les LLM possèdent des circuits de calcul internes pour des tâches arithmétiques ou temporelles (ex: modularité, addition de dates). La géométrie circulaire facilite le calcul modulo $N$ .
Robustesse des Représentations : La découverte que les structures géométriques sont collectives et robustes au bruit suggère que les modèles sont capables d'extraire des concepts abstraits (comme le temps ou l'espace) même en présence de données incomplètes ou bruitées, grâce à la redondance apportée par de nombreux mots liés à la même variable latente.
Lien avec les Neurosciences : L'article établit un parallèle fascinant avec les cellules de grille dans le cortex entorhinal des mammifères, qui codent l'espace 2D via des interférences de modes de Fourier, suggérant que le même principe mathématique (symétrie $\to$ modes de Fourier) pourrait régir l'apprentissage de l'espace et du temps aussi bien dans les réseaux neuronaux artificiels que biologiques.

En résumé, cet article démontre que la géométrie complexe des représentations neuronales est une conséquence directe et prévisible de la symétrie inhérente aux statistiques de co-occurrence du langage, offrant une explication fondamentale à l'émergence de structures sémantiques ordonnées dans les modèles d'IA.