Gauge Freedom and Metric Dependence in Neural Representation Spaces

Each language version is independently generated for its own context, not a direct translation.

Il Grande Inganno delle Coordinate: Perché le "Mappe" delle Intelligenze Artificiali possono essere ingannevoli

Immagina di avere un'Intelligenza Artificiale (come un cervello digitale) che deve riconoscere le immagini di gatti e cani. Per farlo, l'IA trasforma ogni immagine in una lista lunghissima di numeri (una "rappresentazione"). Questi numeri sono come le coordinate di un punto su una mappa.

Fino a poco tempo fa, gli scienziati pensavano che queste coordinate avessero un significato assoluto: "Se due numeri sono vicini, allora il gatto e il cane sono simili". Ma questo paper di Jericho Cain ci dice una cosa rivoluzionaria: quelle coordinate sono arbitrarie.

Ecco come funziona, spiegato con analogie quotidiane.

1. L'Analogia della "Traduzione" (La Libertà di Gauge)

Immagina di avere una ricetta per fare una torta perfetta.

La ricetta originale: "Usa 2 tazze di farina e 1 tazza di zucchero".
La ricetta trasformata: "Usa 4 tazze di farina e 2 tazze di zucchero".

Se raddoppi tutti gli ingredienti, la torta viene esattamente uguale. Il gusto, la consistenza e il risultato finale non cambiano. Hai solo cambiato le "unità di misura" o le coordinate della ricetta.

Nel mondo delle reti neurali succede la stessa cosa:

L'IA può trasformare i suoi numeri interni (le rappresentazioni) moltiplicandoli per un fattore qualsiasi.
Per compensare questo cambiamento, l'IA aggiusta automaticamente il "peso" del passaggio successivo (come se dicesse: "Ok, ho raddoppiato gli ingredienti, quindi dimezzo la quantità di forno necessaria").
Risultato: L'IA fa le stesse previsioni (riconosce il gatto), ma i numeri interni che usa per pensare sono completamente diversi.

Gli autori chiamano questo fenomeno "Libertà di Gauge". Significa che i numeri che vediamo non sono l'unica verità; sono solo una delle infinite versioni possibili della stessa realtà.

2. Il Problema della "Bussola Rotta" (La Similarità Cosine)

Ora, immagina di voler misurare quanto due punti sulla mappa siano vicini. Usiamo spesso una misura chiamata Similarità Cosine. È come misurare l'angolo tra due frecce: se puntano nella stessa direzione, sono simili.

Il paper ci dice che questa misura è ingannevole quando cambiamo le coordinate.

L'analogia: Immagina di avere una mappa su un foglio di gomma elastica. Se allunghi il foglio in una direzione (stirandolo), la forma delle città cambia. Due città che prima sembravano vicine (angolo simile) ora potrebbero sembrare lontane o puntare in direzioni diverse, anche se sulla mappa "reale" (la torta perfetta) sono sempre nello stesso posto.

Gli esperimenti del paper mostrano che:

Se prendiamo un'IA addestrata e le "stiriamo" i numeri interni (cambiando le coordinate), la sua capacità di riconoscere i gatti rimane al 100%.
Tuttavia, se proviamo a misurare la "somiglianza" tra due gatti usando la Similarità Cosine, il risultato cambia drasticamente!
In alcuni casi, il sistema potrebbe dire che due gatti sono molto diversi, mentre prima li considerava gemelli, pur essendo la stessa identica IA.

3. La Soluzione: La "Fotografia in Bianco e Nero" (Whitening)

Se le coordinate sono arbitrarie, come possiamo studiare queste reti neurali senza impazzire?
Gli autori suggeriscono di scegliere una "Coordinate Canonica", ovvero un punto di vista fisso e standard.

L'analogia: Immagina di avere una foto distorta di un paesaggio. Per capirla davvero, devi "raddrizzarla" usando una lente correttiva.
Nel paper, questa lente si chiama Whitening (sbiancamento). È un trucco matematico che "appiattisce" la distorsione della mappa, rendendo tutte le direzioni uguali (come se la gomma elastica tornasse al suo stato originale).
Una volta fatto questo, le misurazioni di similarità diventano stabili e affidabili.

4. Cosa significa per il futuro?

Questo studio ci insegna tre cose fondamentali:

Non fidarsi ciecamente delle mappe: Quando gli scienziati dicono "queste due rappresentazioni sono simili", potrebbero solo stare guardando la mappa da un angolo sbagliato.
La forma conta più della posizione: L'informazione vera è nella struttura dei dati, non nei numeri specifici che usiamo per descriverli.
Nuovi strumenti: Dobbiamo smettere di usare solo la "Similarità Cosine" (che è fragile) e iniziare a usare metodi che non cambiano quando ruotiamo o stiriamo la mappa (come il CKA o l'analisi delle sottospazi).

In sintesi

Le reti neurali sono come maghi che possono cambiare i trucchi che usano per fare lo stesso spettacolo. Se guardiamo solo i numeri che escono dalle loro maniche (le coordinate), potremmo pensare che il trucco sia cambiato, quando in realtà è identico. Questo paper ci dice: "Non guardate i numeri, guardate la magia che fanno, e usate una lente fissa per non essere ingannati dalle distorsioni."

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nell'analisi delle reti neurali moderne, le rappresentazioni interne (hidden states) sono spesso trattate come vettori in uno spazio euclideo fisso. Si assume comunemente che le coordinate di questi vettori abbiano un significato geometrico intrinseco, e metriche come la similarità del coseno o la distanza euclidea vengono utilizzate per misurare la similarità semantica, l'organizzazione strutturale (clustering) e le relazioni tra feature.

Tuttavia, il paper identifica un problema fondamentale: le coordinate delle rappresentazioni neurali non sono uniche. Se una rappresentazione nascosta $h(x)$ viene trasformata da una mappa lineare invertibile $D$ , la funzione della rete può essere preservata applicando la trasformazione inversa ai pesi del layer successivo ( $W' = W D^{-1}$ ). Di conseguenza, la rete produce le stesse previsioni, ma la geometria dello spazio delle rappresentazioni cambia drasticamente. Le analisi basate su metriche fisse (come il coseno) sono quindi ambigue perché dipendono dalla scelta specifica delle coordinate (il "gauge"), non solo dalla funzione appresa dal modello.

2. Metodologia e Quadro Teorico

Simmetria di Gauge nelle Rappresentazioni

L'autore inquadra lo spazio delle rappresentazioni come uno spazio vettoriale dotato di una libertà di gauge sotto l'azione del gruppo lineare generale $GL(d)$ .

Proposizione 1: Per qualsiasi rappresentazione nascosta $h(x) \in \mathbb{R}^d$ e qualsiasi layer lineare successivo $y = Wh(x)$ , è possibile definire una nuova rappresentazione $\tilde{h}(x) = Dh(x)$ e nuovi pesi $\tilde{W} = WD^{-1}$ tali che $\tilde{W}\tilde{h}(x) = Wh(x)$ .
La funzione della rete rimane invariata, ma le coordinate geometriche cambiano.

Dipendenza dalla Metrica

La similarità del coseno è definita rispetto a una metrica euclidea specifica. Sotto una trasformazione di gauge $\tilde{u} = Du$ , la similarità del coseno cambia perché la trasformazione induce un nuovo tensore metrico $G = D^\top D$ .

La similarità del coseno non è un invariante di gauge.
Due sistemi di embedding che codificano la stessa informazione possono produrre valori di similarità del coseno arbitrariamente diversi a causa di ridimensionamenti o distorsioni lineari.

Scelta di un Gauge Canonico: Whitening

Il paper propone il whitening (sbiancamento) come una scelta canonica per fissare il gauge. Applicando la trasformazione $D = \Sigma^{-1/2}$ , dove $\Sigma$ è la matrice di covarianza degli stati nascosti, si trasforma la distribuzione delle rappresentazioni in una distribuzione isotropa (covarianza identità). In questo gauge, la similarità del coseno corrisponde alla similarità angolare in uno spazio dove le direzioni principali sono normalizzate.

Dinamiche di Apprendimento

L'autore estende l'analisi alla dinamica di training, mostrando come gli aggiornamenti dei parametri $\delta\theta$ influenzino le rappresentazioni attraverso la matrice Jacobiana $J_\ell$ . Questo induce una metrica pullback sullo spazio dei parametri ( $G_\ell = J_\ell^\top J_\ell$ ), che definisce la sensibilità delle rappresentazioni agli aggiornamenti. Anche qui, la geometria locale dipende dalla scelta delle coordinate.

3. Contributi Chiave

Formalizzazione della Simmetria di Gauge: Identifica esplicitamente la libertà di trasformazione lineare invertibile come una simmetria di gauge negli spazi di rappresentazione delle reti neurali, analogamente a quanto avviene in fisica teorica.
Dimostrazione della Non-Invarianza: Dimostra teoricamente e sperimentalmente che metriche comuni (similarità del coseno, struttura dei vicini più prossimi) non sono proprietà intrinseche del modello, ma dipendono dalla realizzazione delle coordinate.
Interpretazione Geometrica di Metodi Esistenti: Fornisce una base teorica unificata per comprendere perché metodi come SVCCA e CKA (Centered Kernel Alignment) funzionano meglio nel confrontare reti diverse: questi metodi cercano di confrontare sottospazi o strutture di similarità che sono più stabili rispetto alle trasformazioni lineari, agendo come approssimazioni di osservabili invariante di gauge.
Whitening come Standard: Propone il whitening come metodo per definire un sistema di coordinate canonico, eliminando l'anisotropia di secondo ordine e rendendo le analisi geometriche più robuste.

4. Risultati Sperimentali

L'autore ha condotto esperimenti controllati su due dataset: Digits (MLP) e CIFAR-10 (CNN). In tutti i casi, è stata applicata una trasformazione lineare invertibile $D$ a uno strato nascosto e compensata nei pesi finali, mantenendo invariata la funzione di previsione della rete.

Invarianza Funzionale: Le previsioni del modello sono rimaste identiche (accordo al 100%, differenze di logit trascurabili, $\approx 10^{-5}$ ).
Distorsione Geometrica:
- Similarità del Coseno: La similarità del coseno tra le rappresentazioni è cambiata significativamente. Nel dataset Digits, la variazione media assoluta è stata di 0.1328.
- Struttura dei Vicini: La struttura dei vicini più prossimi (k-NN) è risultata instabile. Per $k=10$ , l'overlap di Jaccard tra i set di vicini prima e dopo la trasformazione è stato circa 0.72, indicando che circa il 28% dei vicini più prossimi è cambiato nonostante la rete facesse le stesse previsioni.
Sweep della Forza di Gauge: Variando il numero di condizione $\kappa$ $κ$ della matrice di trasformazione $D$ $D$ :
- Per $\kappa=1$ (trasformazione ortogonale), la struttura è preservata.
- All'aumentare di $\kappa$ (es. $\kappa=20$ ), la distorsione del coseno cresce e la stabilità dei vicini diminuisce (Jaccard scende a ~0.63, tasso di inversione dei primi vicini ~0.37).
Whitening: L'applicazione del whitening ha collassato lo spettro degli autovalori della covarianza a 1, rimuovendo l'anisotropia e fornendo una metrica stabile.

5. Significato e Implicazioni

Questo lavoro ha profonde implicazioni per l'interpretabilità e l'analisi delle reti neurali:

Ridefinizione dell'Analisi Geometrica: Le analisi che si basano su similarità del coseno o distanze euclidee senza considerare la libertà di gauge possono portare a conclusioni fuorvianti. Una "distanza semantica" calcolata in uno spazio di embedding potrebbe essere un artefatto della scelta delle coordinate piuttosto che una proprietà del modello.
Necessità di Invarianti o Gauge Canonici: Per un'analisi robusta, è necessario focalizzarsi su:
1. Grandezze invarianti sotto trasformazioni lineari invertibili (es. metodi basati su sottospazi come CCA/CKA).
2. L'adozione esplicita di un sistema di coordinate canonico (come il whitening) prima di calcolare metriche geometriche.
Superposizione delle Feature: La geometria della "superposizione delle feature" (feature superposition) è descritta come una proprietà geometrica dello spazio di rappresentazione dipendente dalla metrica, non solo una proprietà dei singoli neuroni.
Limiti e Futuro: Lo studio si concentra su trasformazioni controllate in modelli relativamente piccoli. L'autore nota che architetture più complesse (Transformer, residui, normalizzazione) potrebbero introdurre vincoli aggiuntivi sulla scelta pratica del gauge, ma il principio fondamentale della libertà di gauge rimane valido.

In sintesi, il paper invita la comunità scientifica a trattare gli spazi di rappresentazione neurale come oggetti geometrici definiti "a meno di" trasformazioni lineari invertibili, spostando l'attenzione da metriche coordinate-dipendenti a osservabili intrinsecamente stabili.