On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Grande Inganno dei "Comandi Segreti" nelle Intelligenze Artificiali

Immagina di avere un'Intelligenza Artificiale (come un chatbot molto avanzato) e di volerla "addestrare" a comportarsi in modo specifico. Ad esempio, vuoi che sia sempre formale, o che sia gentile, o che faccia battute.

Gli scienziati hanno scoperto un trucco: inseriscono un piccolo "codice" (chiamato vettore di sterzo) nel cervello digitale del modello per spingerlo in quella direzione. È come se dessi al robot un piccolo spintone mentale: "Ora, pensa come un avvocato formale!".

Finora, tutti pensavano che questo spintone fosse unico e preciso. Cioè, credevano che esistesse un solo, vero codice segreto per rendere il robot formale, e che gli scienziati lo avessero trovato.

Questo articolo dice: "Non è vero. È un'illusione."

Ecco come funziona, spiegato con delle metafore.

1. La Metafora della Luce e dell'Ombra 🌑

Immagina che il cervello del robot sia una stanza buia piena di oggetti (i dati). Tu hai una torcia (il vettore di sterzo) e vuoi illuminare un oggetto specifico (il concetto di "formalità").

Il paper dimostra che non esiste una sola posizione da cui puntare la torcia per illuminare quell'oggetto.
Puoi stare davanti, di lato, o anche dietro, e se l'angolo è giusto, l'oggetto apparirà illuminato allo stesso modo.

In termini tecnici, il cervello del robot è così grande e complesso che ci sono milioni di direzioni diverse che, per l'occhio esterno (cioè per quello che il robot scrive), sembrano identiche. Se sposti il vettore di sterzo di un po' in una direzione "invisibile" (chiamata spazio nullo), il robot continua a comportarsi esattamente come prima.

2. L'Esperimento: Il Trucco del "Sostituto" 🎲

Gli autori del paper hanno fatto un esperimento geniale:

Hanno preso un vettore di sterzo che funzionava bene (es. per rendere il robot "divertente").
Hanno aggiunto un "rumore" casuale a quel vettore, ma un rumore che, matematicamente, non avrebbe dovuto cambiare nulla (un vettore ortogonale).
Risultato: Il robot è diventato altrettanto divertente con il vettore modificato che con quello originale.

È come se avessi un interruttore per la luce. Hai scoperto che non serve premere esattamente il tasto "ON". Puoi premere il tasto "ON" + un po' di "polvere" + un po' di "vento", e la luce si accende comunque. Anzi, puoi premere un tasto completamente diverso che sembra non avere nulla a che fare con la luce, e la lampadina si accende lo stesso!

3. Perché è un Problema? 🤔

Se pensiamo che il vettore che abbiamo trovato sia l'unica "vera" essenza della formalità o della gentilezza, stiamo sbagliando.

Non è una verità scientifica: Dire "Questo vettore rappresenta la verità" è come dire "Questa è l'unica strada per Roma". In realtà, ce ne sono infinite, e noi ne abbiamo trovata una a caso.
È fragile: Se cambiamo leggermente il modello o le domande che gli facciamo, quel "codice segreto" potrebbe smettere di funzionare, perché non era davvero legato al concetto, ma solo a una coincidenza geometrica.

4. La Conclusione: Non fidarsi solo dell'output 🚫

Il messaggio principale è: Non possiamo fidarci ciecamente di ciò che vediamo fuori (le risposte del robot) per capire cosa succede dentro (il suo cervello).

Se due vettori diversi producono lo stesso risultato, non possiamo sapere quale dei due sia quello "giusto" o "significativo". È come guardare un attore che recita una parte: se due attori diversi recitano la stessa scena perfettamente, non puoi dire quale dei due sia il "vero" personaggio, perché la scena è identica.

In sintesi:
Gli scienziati hanno scoperto che i "comandi mentali" che usiamo per controllare le Intelligenze Artificiali non sono unici. Sono come chiavi che aprono la stessa porta da infinite angolazioni diverse. Questo significa che dobbiamo essere più prudenti quando diciamo di aver "capito" o "controllato" il pensiero di un'IA. Per farlo davvero, non basta guardare cosa scrive, dobbiamo imporre regole più rigide sulla sua struttura interna.

In una frase: Crediamo di aver trovato la "bacchetta magica" unica per controllare l'IA, ma in realtà abbiamo solo trovato una delle infinite bacchette che, per caso, funzionano tutte allo stesso modo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Le tecniche di steering (guida) delle attivazioni sono ampiamente utilizzate per controllare il comportamento dei Large Language Models (LLM) aggiungendo vettori direzionali appresi alle attivazioni intermedie. L'interpretazione corrente di questi metodi assume che i vettori di guida estratti corrispondano a fattori latenti unici e significativi (ad esempio, "onestà", "formalità") che possono essere manipolati per ottenere un controllo affidabile.

Il paper sfida questa assunzione fondamentale, ponendo la questione: i vettori di guida sono identificabili? Cioè, è possibile recuperare univocamente la direzione "corretta" che rappresenta un concetto semantico basandosi solo sul comportamento input-output del modello? Gli autori sostengono che, sotto le condizioni standard di accesso ai modelli (white-box, singolo livello), i vettori di guida sono fondamentalmente non identificabili.

2. Metodologia e Impostazione Teorica

Modello Formale

Gli autori modellano lo steering come un problema di identificazione di variabili latenti.

Intervento: Dato un modello $f_\theta$ e un livello $\ell$ , un vettore di steering $v$ viene aggiunto all'attivazione nascosta $h_\ell(x)$ : $\tilde{h}_\ell(x) = h_\ell(x) + \alpha v$ .
Approssimazione Lineare: Vicino a una distribuzione di riferimento, l'effetto sullo output (logit) è approssimabile linearmente tramite la matrice Jacobiana $J_\ell(x) = \frac{\partial o}{\partial h_\ell}$ :
$o(x, v, \alpha) \approx o(x, 0, 0) + \alpha J_\ell(x)v$
Regimi di Osservazione: L'analisi si concentra sul Regime 2 (accesso white-box a un singolo livello), che è lo standard per la maggior parte delle ricerche sullo steering.

Il Meccanismo di Non-Identificabilità

Il cuore teorico risiede nell'ambiguità dello spazio nullo (null-space ambiguity).

Se un vettore $v_0$ appartiene allo spazio nullo della Jacobiana ( $J_\ell v_0 = 0$ ), allora aggiungere $v_0$ a qualsiasi vettore di steering $v$ non cambia l'output linearizzato:
$J_\ell(v + v_0) = J_\ell v + J_\ell v_0 = J_\ell v$
Poiché i modelli linguistici sono sovraparametrizzati (dimensione nascosta $d$ molto grande rispetto al rango effettivo della Jacobiana), lo spazio nullo ha dimensione $d - \text{rank}(J_\ell) \geq 1$ .
Di conseguenza, esistono infiniti vettori geometricamente distinti ( $v' = v + v_0$ ) che producono comportamenti osservabili identici.

3. Contributi Chiave

Analisi Formale di Identificabilità: Gli autori dimostrano teoricamente che, senza vincoli strutturali aggiuntivi, i vettori di persona sono non identificabili. Esistono classi di equivalenza infinite di vettori che generano lo stesso output.
Validazione Empirica: Dimostrano sperimentalmente che le perturbazioni ortogonali ai vettori estratti mantengono un'efficacia quasi totale (95-100%) su diversi modelli e tratti semantici.
Robustezza Geometrica: Confermano che questa non-identificabilità è una proprietà geometrica robusta che persiste anche sotto spostamenti di distribuzione (distribution shift) e diverse configurazioni di prompt, non essendo quindi un artefatto di una scarsa diversità dei dati.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su due modelli open-weight (Qwen2.5-3B e Llama-3.1-8B) e tre tratti semantici (Formalità, Cortesia, Umorismo).

Test di Perturbazione Ortogonale:
- Gli autori hanno generato vettori perturbati $v' = v + v_\perp$ , dove $v_\perp$ è un vettore casuale ortogonale a $v$ .
- Risultato: La differenza nell'efficacia semantica tra $v$ e $v'$ è trascurabile. La dimensione dell'effetto (Cohen's $d$ ) è risultata inferiore a 0.2 (effetto trascurabile) in quasi tutti i casi.
- I vettori puramente ortogonali ( $v_\perp$ da soli) hanno raggiunto fino al 100% dell'efficacia del vettore originale in alcune configurazioni, suggerendo che la componente "significativa" del vettore originale non è necessaria per il controllo comportamentale.
Invarianza di Scala:
- L'equivalenza osservazionale è stata verificata su diverse intensità di steering ( $\alpha \in \{0.0, 0.5, 1.0, 2.0\}$ ). Le curve di risposta sono rimaste sovrapposte, confermando che la non-identificabilità è una proprietà strutturale e non dipende dalla forza dell'intervento.
Robustezza allo Shift di Distribuzione:
- Testando su ambienti diversi (temi medici/legali, generi diversi, stili di sicurezza), l'equivalenza tra vettori originali e perturbati è persistita. Anche se le dimensioni dell'effetto sono aumentate leggermente in alcuni contesti (fino a $d=0.63$ ), la diversità dei prompt da sola non è sufficiente a risolvere l'ambiguità dello spazio nullo.
Analisi a Livello di Logit (Appendice):
- Un'analisi diretta sui logit ha mostrato che le perturbazioni ortogonali inducono deviazioni minori rispetto a direzioni casuali, preservando la distribuzione di output in modo più fedele, confermando che l'equivalenza non è un artefatto delle metriche semantiche superficiali.

5. Significato e Implicazioni

I risultati del paper hanno implicazioni profonde per l'interpretabilità e l'allineamento degli LLM:

Limiti dell'Interpretabilità: Le affermazioni secondo cui un vettore specifico "rappresenta" un concetto (es. "onestà") non sono scientificamente fondate se basate solo sul comportamento input-output. Molti vettori diversi possono produrre lo stesso effetto senza che uno sia "corretto" o "canonico".
Controllo Euristiche vs. Causale: I metodi di steering attuali offrono spesso un controllo euristico affidabile ma non forniscono una comprensione causale principiale delle rappresentazioni interne.
Necessità di Vincoli Strutturali: Per ottenere vettori di guida identificabili e interpretabili, è necessario introdurre vincoli strutturali oltre il semplice test comportamentale (ad esempio, vincoli di indipendenza, regolarizzazione della sparsità o obiettivi di invarianza).
Impatto sulla Sicurezza: La presenza di grandi classi di equivalenza suggerisce che le direzioni di steering potrebbero basarsi su correlazioni fragili che potrebbero fallire sotto attacchi avversari o aggiornamenti del modello, rendendo difficile garantire un controllo robusto.

In sintesi, il paper dimostra che la geometria interna dei modelli LLM crea un "vuoto" di identificabilità: possiamo controllare il comportamento del modello, ma non possiamo essere certi di quale direzione interna stiamo effettivamente manipolando, a meno che non imponiamo ipotesi strutturali aggiuntive.

On the Non-Identifiability of Steering Vectors in Large Language Models

🎭 Il Grande Inganno dei "Comandi Segreti" nelle Intelligenze Artificiali

1. La Metafora della Luce e dell'Ombra 🌑

2. L'Esperimento: Il Trucco del "Sostituto" 🎲

3. Perché è un Problema? 🤔

4. La Conclusione: Non fidarsi solo dell'output 🚫

1. Il Problema

2. Metodologia e Impostazione Teorica

Modello Formale

Il Meccanismo di Non-Identificabilità

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy