On the Non-Identifiability of Steering Vectors in Large Language Models

Questo studio dimostra che i vettori di guida nei grandi modelli linguistici sono fondamentalmente non identificabili, poiché perturbazioni ortogonali producono effetti comportamentali quasi equivalenti, rivelando così limiti intrinseci nell'interpretazione delle rappresentazioni interne basata esclusivamente sul testing comportamentale.

Sohan Venkatesh, Ashish Mahendran Kurapath

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Grande Inganno dei "Comandi Segreti" nelle Intelligenze Artificiali

Immagina di avere un'Intelligenza Artificiale (come un chatbot molto avanzato) e di volerla "addestrare" a comportarsi in modo specifico. Ad esempio, vuoi che sia sempre formale, o che sia gentile, o che faccia battute.

Gli scienziati hanno scoperto un trucco: inseriscono un piccolo "codice" (chiamato vettore di sterzo) nel cervello digitale del modello per spingerlo in quella direzione. È come se dessi al robot un piccolo spintone mentale: "Ora, pensa come un avvocato formale!".

Finora, tutti pensavano che questo spintone fosse unico e preciso. Cioè, credevano che esistesse un solo, vero codice segreto per rendere il robot formale, e che gli scienziati lo avessero trovato.

Questo articolo dice: "Non è vero. È un'illusione."

Ecco come funziona, spiegato con delle metafore.

1. La Metafora della Luce e dell'Ombra 🌑

Immagina che il cervello del robot sia una stanza buia piena di oggetti (i dati). Tu hai una torcia (il vettore di sterzo) e vuoi illuminare un oggetto specifico (il concetto di "formalità").

Il paper dimostra che non esiste una sola posizione da cui puntare la torcia per illuminare quell'oggetto.
Puoi stare davanti, di lato, o anche dietro, e se l'angolo è giusto, l'oggetto apparirà illuminato allo stesso modo.

In termini tecnici, il cervello del robot è così grande e complesso che ci sono milioni di direzioni diverse che, per l'occhio esterno (cioè per quello che il robot scrive), sembrano identiche. Se sposti il vettore di sterzo di un po' in una direzione "invisibile" (chiamata spazio nullo), il robot continua a comportarsi esattamente come prima.

2. L'Esperimento: Il Trucco del "Sostituto" 🎲

Gli autori del paper hanno fatto un esperimento geniale:

  1. Hanno preso un vettore di sterzo che funzionava bene (es. per rendere il robot "divertente").
  2. Hanno aggiunto un "rumore" casuale a quel vettore, ma un rumore che, matematicamente, non avrebbe dovuto cambiare nulla (un vettore ortogonale).
  3. Risultato: Il robot è diventato altrettanto divertente con il vettore modificato che con quello originale.

È come se avessi un interruttore per la luce. Hai scoperto che non serve premere esattamente il tasto "ON". Puoi premere il tasto "ON" + un po' di "polvere" + un po' di "vento", e la luce si accende comunque. Anzi, puoi premere un tasto completamente diverso che sembra non avere nulla a che fare con la luce, e la lampadina si accende lo stesso!

3. Perché è un Problema? 🤔

Se pensiamo che il vettore che abbiamo trovato sia l'unica "vera" essenza della formalità o della gentilezza, stiamo sbagliando.

  • Non è una verità scientifica: Dire "Questo vettore rappresenta la verità" è come dire "Questa è l'unica strada per Roma". In realtà, ce ne sono infinite, e noi ne abbiamo trovata una a caso.
  • È fragile: Se cambiamo leggermente il modello o le domande che gli facciamo, quel "codice segreto" potrebbe smettere di funzionare, perché non era davvero legato al concetto, ma solo a una coincidenza geometrica.

4. La Conclusione: Non fidarsi solo dell'output 🚫

Il messaggio principale è: Non possiamo fidarci ciecamente di ciò che vediamo fuori (le risposte del robot) per capire cosa succede dentro (il suo cervello).

Se due vettori diversi producono lo stesso risultato, non possiamo sapere quale dei due sia quello "giusto" o "significativo". È come guardare un attore che recita una parte: se due attori diversi recitano la stessa scena perfettamente, non puoi dire quale dei due sia il "vero" personaggio, perché la scena è identica.

In sintesi:
Gli scienziati hanno scoperto che i "comandi mentali" che usiamo per controllare le Intelligenze Artificiali non sono unici. Sono come chiavi che aprono la stessa porta da infinite angolazioni diverse. Questo significa che dobbiamo essere più prudenti quando diciamo di aver "capito" o "controllato" il pensiero di un'IA. Per farlo davvero, non basta guardare cosa scrive, dobbiamo imporre regole più rigide sulla sua struttura interna.


In una frase: Crediamo di aver trovato la "bacchetta magica" unica per controllare l'IA, ma in realtà abbiamo solo trovato una delle infinite bacchette che, per caso, funzionano tutte allo stesso modo.