Gauge Freedom and Metric Dependence in Neural Representation Spaces

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : La Liberté de Peindre et la Dépendance de la Toile

Imaginez que les réseaux de neurones (les "cerveaux" artificiels) sont comme des artistes qui transforment des images ou des mots en une série de dessins abstraits (ce qu'on appelle des "représentations").

Ce papier, écrit par Jericho Cain, nous dit une chose fondamentale : la façon dont nous lisons ces dessins dépend entièrement de la grille que nous utilisons pour les regarder.

1. Le Problème : Le "Miroir Magique" (La Liberté de Jauge)

Dans le monde des réseaux de neurones, il existe une règle secrète appelée "Liberté de Jauge" (Gauge Freedom).

L'analogie du traducteur :
Imaginez que vous avez un message secret écrit en français (la représentation interne du réseau).

Vous pouvez le traduire en anglais, en espagnol ou en chinois (c'est une transformation linéaire).
Tant que le traducteur qui lit le message à la fin (la couche suivante du réseau) sait aussi traduire en retour de la même langue, le message final reste exactement le même.

Ce que cela signifie :
Le réseau peut changer complètement la forme de ses "pensées" internes (ses vecteurs) tant qu'il ajuste ses "outils de lecture" en conséquence. Le résultat final (la prédiction du réseau) ne change pas, mais la forme de la pensée interne, elle, est totalement différente.

C'est comme si vous dessiniez un chat. Vous pouvez le dessiner en noir et blanc, en couleurs, ou le déformer en un chat géant et plat. Tant que vous ajustez votre façon de le décrire, c'est toujours le même chat pour le spectateur. Mais si vous essayez de mesurer la "distance" entre ce chat et un chien en utilisant une règle rigide, votre mesure changera selon que le chat est déformé ou non !

2. Le Piège : La "Règle" qui Ment (La Similarité Cosinus)

Les scientifiques utilisent souvent une mesure appelée "Similarité Cosinus" pour dire : "Ces deux pensées sont-elles proches ?" (Par exemple, est-ce que le mot "chat" est proche du mot "chiot" ?).

L'analogie de la carte déformée :
Imaginez que vous avez une carte du monde.

Si vous utilisez une projection de Mercator (qui grossit le Groenland), le Groenland semble énorme.
Si vous utilisez une autre projection, il semble petit.

La "Similarité Cosinus" est comme une règle qui mesure les angles sur cette carte.

Le problème : Si vous déformez la carte (en changeant la "jauge" du réseau), les angles changent.
La conséquence : Deux mots qui semblaient très proches (comme "chat" et "chiot") peuvent soudainement sembler très éloignés, même si le réseau a exactement la même intelligence et fait les mêmes prédictions !

Le papier montre que cette mesure est instable. Elle dépend de la "grille" choisie, pas de la réalité du réseau.

3. Les Expériences : Le Test du "Miroir Déformant"

L'auteur a fait des expériences pour prouver ce point. Il a pris des réseaux de neurones déjà entraînés (qui reconnaissent des chiffres ou des images) et il a appliqué un "miroir déformant" mathématique à l'intérieur.

Résultat 1 : Le réseau continue de fonctionner parfaitement. Il reconnaît toujours les chiffres avec la même précision.
Résultat 2 : Si on regarde la "distance" entre les chiffres, tout a changé !
- Dans le réseau original, le chiffre "1" était très proche du "7".
- Dans le réseau déformé, le "1" est soudainement très loin du "7".
- Même les "voisins les plus proches" (ceux qu'on utilise pour trouver des images similaires) ont changé de 30 % à 40 % !

La leçon : Ce que nous pensons être la "structure" ou la "géométrie" des pensées du réseau est souvent une illusion créée par notre façon de les mesurer.

4. La Solution : Trouver une "Vue Canonique" (Le Blanchiment)

Si la mesure dépend de la grille, comment trouver la vérité ?

L'auteur suggère d'utiliser une grille "standardisée" appelée Blanchiment (Whitening).

L'analogie de la photo :
Imaginez que vous prenez une photo avec un objectif déformant qui étire tout d'un côté. La photo est belle, mais les proportions sont fausses.
Le "Blanchiment", c'est comme appliquer un filtre numérique qui remet tout à l'échelle, enlevant toutes les distorsions.

Cela rend la distribution des données "isotrope" (identique dans toutes les directions).
Cela fixe une grille de référence unique.

En utilisant cette grille standard, les scientifiques peuvent comparer les réseaux de manière équitable, sans que les résultats ne changent à cause d'un simple choix mathématique arbitraire.

En Résumé : Ce qu'il faut retenir

Les réseaux de neurones sont flexibles : Ils peuvent penser de mille façons différentes pour arriver au même résultat.
Nos mesures sont fragiles : Des outils populaires comme la "similarité cosinus" sont comme des règles qui se plient. Elles ne mesurent pas la réalité du réseau, mais la réalité de notre grille de mesure.
Attention aux conclusions : Dire que deux concepts sont "proches" dans un réseau de neurones n'a de sens que si on précise comment on les a mesurés.
L'avenir : Pour comprendre vraiment comment les IA pensent, nous devons soit utiliser des mesures qui ne changent pas quand on déforme la grille, soit s'accorder sur une grille standard (comme le blanchiment) pour tout le monde.

En une phrase : Ne confondez pas la carte avec le territoire. La façon dont nous dessinons les pensées de l'IA change la carte, mais pas le territoire.

Each language version is independently generated for its own context, not a direct translation.

Titre : Liberté de jauge et dépendance métrique dans les espaces de représentation neuronale

1. Problématique

L'analyse des réseaux de neurones modernes repose souvent sur l'hypothèse que les vecteurs de représentation (embeddings, états cachés) possèdent une signification géométrique intrinsèque dans un espace euclidien fixe. Des métriques courantes comme la similarité cosinus ou la distance euclidienne sont utilisées pour mesurer la similarité sémantique, la structure de voisinage ou les relations entre caractéristiques.

Cependant, l'auteur démontre que les coordonnées de ces représentations ne sont pas uniques. Une représentation interne $h(x)$ suivie d'une couche linéaire $W$ peut être transformée par une application linéaire inversible $D$ (appartenant au groupe général linéaire $GL(d)$ ) en $h'(x) = Dh(x)$ , à condition d'ajuster les poids en aval en $W' = WD^{-1}$ . Cette transformation préserve strictement la fonction du réseau ( $W'h' = Wh$ ), mais modifie la géométrie apparente de l'espace de représentation.

Le problème central est que les mesures géométriques dépendantes de la métrique (comme la similarité cosinus) ne sont pas invariantes sous ces transformations de jauge. Par conséquent, les conclusions tirées de l'analyse géométrique peuvent être des artefacts du choix de coordonnées plutôt que des propriétés intrinsèques du modèle.

2. Méthodologie

L'article adopte une approche géométrique rigoureuse en traitant les espaces de représentation comme des espaces vectoriels dotés d'une liberté de jauge sous l'action du groupe $GL(d)$ .

Cadre théorique :
- Définition de la symétrie de jauge : Deux systèmes de représentation liés par une transformation linéaire inversible encodent la même information fonctionnelle.
- Analyse de la métrique : L'auteur montre qu'une transformation linéaire $D$ induit un nouveau tenseur métrique $G = D^\top D$ . La similarité cosinus calculée dans les nouvelles coordonnées correspond à la similarité angulaire sous cette nouvelle métrique, et non plus sous la métrique euclidienne standard.
- Blanchiment (Whitening) : Proposé comme un choix de jauge canonique. En appliquant la transformation $D = \Sigma^{-1/2}$ (où $\Sigma$ est la matrice de covariance des états cachés), la distribution devient isotrope (covariance identité), fixant ainsi une métrique de référence unique.
Expérimentations :
- Des transformations de jauge inversibles sont injectées dans des modèles entraînés (un Perceptron Multicouche sur le jeu de données Digits et un Réseau de Neurones Convolutif sur CIFAR-10).
- Les poids de la couche de sortie sont compensés pour garantir que les prédictions du modèle restent inchangées (invariance fonctionnelle).
- L'impact de ces transformations est mesuré sur :
  1. La similarité cosinus moyenne entre paires de représentations.
  2. La stabilité de la structure des plus proches voisins (mesurée par l'indice de Jaccard).
  3. L'effet de la « force » de la jauge (conditionnement $\kappa$ de la matrice $D$ ).

3. Contributions Clés

Formalisation de la liberté de jauge : Identification explicite du groupe $GL(d)$ comme une symétrie fondamentale des espaces de représentation neuronale, analogue aux libertés de jauge en physique.
Démonstration de la dépendance métrique : Preuve théorique et empirique que la similarité cosinus et la structure des voisins les plus proches sont des quantités dépendantes de la jauge, et non des invariants du modèle.
Interprétation unifiée : Fourniture d'une explication géométrique commune à plusieurs observations de la littérature, notamment l'instabilité de la similarité cosinus, l'anisotropie des espaces d'embedding, et l'efficacité de méthodes de comparaison comme SVCCA et CKA (qui tentent d'aligner les sous-espaces indépendamment de la base).
Proposition de jauge canonique : L'identification du blanchiment (whitening) comme une méthode pour fixer une métrique canonique, éliminant l'anisotropie d'ordre deux et permettant des comparaisons plus stables.

4. Résultats Expérimentaux

Les expériences confirment que l'invariance fonctionnelle n'implique pas l'invariance géométrique :

Invariance fonctionnelle : Après transformation, l'accord des prédictions est de 1,0 (100 %) et la différence maximale des logits est négligeable ( $\approx 10^{-5}$ ).
Distorsion géométrique :
- Sur le jeu de données Digits, la variation absolue moyenne de la similarité cosinus est de 0,1328.
- La structure des voisins les plus proches est significativement altérée : environ 28 % des voisins changent (Jaccard@10 $\approx$ 0,72) même pour des transformations modérées.
Impact du conditionnement : En augmentant le nombre de conditionnement $\kappa$ de la transformation $D$ (jusqu'à 20), la distorsion augmente. À $\kappa = 20$ , plus d'un tiers des voisins les plus proches changent, bien que le modèle produise des prédictions identiques.
Efficacité du blanchiment : L'application d'une transformation de blanchiment réduit le spectre des valeurs propres de la covariance à l'unité, éliminant l'anisotropie et fournissant une base de référence stable.

5. Signification et Implications

Ce travail remet en question la pratique courante d'analyser les représentations neuronales sans tenir compte du choix de coordonnées.

Interprétabilité : Les conclusions basées sur la similarité cosinus ou la distance euclidienne doivent être traitées avec prudence, car elles peuvent varier selon la jauge choisie par l'optimiseur ou l'initialisation.
Méthodologie d'analyse : Les chercheurs devraient soit :
1. Se concentrer sur des quantités invariantes de jauge (comme les méthodes de comparaison de sous-espaces : CCA, CKA).
2. Adopter explicitement un système de coordonnées canonique (comme le blanchiment) avant toute analyse géométrique.
Dynamique d'apprentissage : La géométrie de l'espace de représentation est liée à la dynamique d'optimisation via la métrique induite par le Jacobien. La liberté de jauge suggère que les directions « préférentielles » d'apprentissage sont relatives au choix de coordonnées.

En résumé, l'article établit que la géométrie des représentations neuronales n'est pas une propriété absolue du modèle, mais dépend intrinsèquement du système de coordonnées utilisé pour la décrire. Une analyse rigoureuse doit distinguer les propriétés de la fonction du modèle de celles de sa réalisation coordonnée.

Gauge Freedom and Metric Dependence in Neural Representation Spaces

🎨 Le Titre : La Liberté de Peindre et la Dépendance de la Toile

1. Le Problème : Le "Miroir Magique" (La Liberté de Jauge)

2. Le Piège : La "Règle" qui Ment (La Similarité Cosinus)

3. Les Expériences : Le Test du "Miroir Déformant"

4. La Solution : Trouver une "Vue Canonique" (Le Blanchiment)

En Résumé : Ce qu'il faut retenir

Titre : Liberté de jauge et dépendance métrique dans les espaces de représentation neuronale

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Implications

Articles similaires

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers