Il Quadro Generale: Una Nuova Stanza in una Vecchia Casa

Immaginate una biblioteca massiccia e altamente intelligente (il Modello Base) che sa già scrivere, programmare e ragionare. Questa biblioteca ha un modo specifico di organizzare i suoi libri e i suoi pensieri, che i ricercatori chiamano la sua "geometria interna".

Ora, immaginate di voler insegnare a questa biblioteca una nuova abilità, come scrivere in uno stile specifico o seguire nuove regole di sicurezza. Invece di ricostruire l'intera biblioteca, aggiungete un piccolo annesso temporaneo. Questo è LoRA (Adattamento a Basso Rango). È un "adattatore" leggero che si posiziona sopra la biblioteca originale per modificare il suo comportamento senza cambiare i libri originali.

Il Problema: Sappiamo che l'annesso cambia ciò che la biblioteca dice, ma non sappiamo davvero come modifica il pensiero interno della biblioteca. L'annesso si limita a riorganizzare i libri esistenti, o costruisce un'ala completamente nuova e invisibile che la mappa della biblioteca originale non mostra?

L'Esperimento: Il Detective del "Delta"

I ricercatori volevano vedere esattamente cosa stava facendo questo annesso (l'adattatore LoRA) all'interno del cervello della biblioteca.

La Foto "Prima e Dopo": Hanno scattato un'istantanea dei pensieri della biblioteca prima di aggiungere l'annesso ( $h_{base}$ ) e un'altra istantanea dopo averlo aggiunto ( $h_{adapted}$ ).
La "Differenza" ( $h_\Delta$ ): Hanno sottratto la foto "prima" dalla foto "dopo". Il risultato, chiamato Delta, è il puro "fantasma" dell'adattatore. Mostra solo ciò che il nuovo annesso ha aggiunto, eliminando tutto ciò che la biblioteca originale sapeva già.
Il Traduttore (Autoencoder Sparsificato): Per comprendere questo "fantasma", hanno utilizzato uno strumento speciale chiamato Autoencoder Sparsificato (SAE). Pensate a un SAE come a un traduttore che cerca di descrivere pensieri complessi utilizzando un dizionario specifico di concetti semplici e chiari (come "felicità", "matematica" o "pericolo").

La Scoperta: Due Lingue Diverse

I ricercatori hanno addestrato il loro traduttore su due cose diverse:

Dizionario A: I concetti esistenti della biblioteca originale (SAE pre-addestrato).
Dizionario B: Un nuovo dizionario addestrato specificamente sul "fantasma" dell'annesso (SAE Delta).

Ecco cosa hanno scoperto:

1. Il Traduttore Ha Fallito con il Vecchio Dizionario

Quando hanno provato a descrivere i pensieri dell'annesso utilizzando il dizionario della biblioteca originale, il traduttore ha fallito miseramente.

L'Analogia: Immaginate di provare a descrivere un nuovo tipo di frutto alieno utilizzando solo parole per mele e arance. Non potete farlo. L'"errore" era così alto che il traduttore non riusciva nemmeno a catturare la forma del frutto.
Il Risultato: Il dizionario originale era cieco alle nuove caratteristiche create dall'adattatore.

2. Il Nuovo Dizionario Ha Funzionato Perfettamente

Quando hanno utilizzato il nuovo dizionario (addestrato specificamente sull'annesso), ha descritto i pensieri perfettamente.

L'Analogia: Hanno realizzato che l'annesso parlava un dialetto leggermente diverso. Una volta appreso quel dialetto specifico, tutto ha avuto senso.
Il Risultato: L'adattatore crea il proprio unico "spazio delle caratteristiche" che è geometricamente distinto dal modello originale.

3. Il "Fantasma" Vive in una Stanza Diversa

I ricercatori hanno misurato l'angolo tra i pensieri della biblioteca originale e i pensieri dell'adattatore.

L'Analogia: Se i pensieri della biblioteca originale puntavano a Nord, i pensieri dell'adattatore puntavano quasi direttamente a Ovest (circa 74 gradi di distanza). Non sono solo leggermente diversi; stanno operando in una direzione completamente diversa.
Il Risultato: Indipendentemente dalle dimensioni dell'adattatore (cambiando il "rango" o la dimensione dell'annesso), ha sempre costruito questa stanza separata e distinta.

Perché Questo È Importante (Secondo il Documento)

Il documento evidenzia una specifica "lacuna di monitoraggio" riguardo alla sicurezza:

Il Punto Cieco: Se addestrate un filtro di sicurezza sulla biblioteca originale (il modello base) e poi attaccate un adattatore di sicurezza (LoRA), gli strumenti di sicurezza potrebbero guardare la mappa sbagliata. Stanno controllando il "Nord" della biblioteca originale, mentre l'adattatore opera verso "Ovest".
Il Rischio: Poiché le modifiche interne dell'adattatore sono così diverse dal modello base, i controlli di sicurezza standard potrebbero non rilevare comportamenti pericolosi introdotti dall'adattatore. L'adattatore si nasconde efficacemente in una stanza che gli ispettori di sicurezza non possono vedere.

Riepilogo delle Scoperte Chiave

LoRA non è solo un aggiustamento; è una nuova struttura. Crea caratteristiche che il dizionario del modello originale non può vedere.
La dimensione non cambia la direzione. Che l'adattatore sia piccolo o grande, costruisce sempre questa "stanza" separata e distinta.
Abbiamo bisogno di nuove mappe. Per comprendere o auditare questi modelli adattati, non possiamo semplicemente utilizzare gli strumenti costruiti per il modello originale. Dobbiamo costruire nuovi strumenti (come l'SAE "Delta") che guardino specificamente a ciò che l'adattatore aggiunge.

In sintesi: l'adattatore non si limita a riorganizzare i mobili nella casa originale; costruisce un'ala nuova e invisibile che richiede una propria pianta unica per essere compresa.

Riepilogo Tecnico: Geometria delle Feature degli Adattatori LoRA

Enunciato del Problema

Sebbene l'Adattamento a Basso Rango (LoRA) sia il metodo dominante per il fine-tuning dei Large Language Models (LLM), i cambiamenti rappresentazionali interni che induce rimangono scarsamente compresi. Gli strumenti esistenti di interpretabilità meccanicistica, in particolare gli Autoencoder Sparsi (SAE), sono stati applicati con successo ai modelli base e alle varianti ottimizzate con RLHF per decomporre le attivazioni del flusso residuo in feature sparse e monosemantiche. Tuttavia, questi strumenti sono tipicamente applicati all'output completo del modello adattato, confondendo le rappresentazioni del modello base con i contributi specifici dell'adattatore.

Questa mancanza di granularità crea un divario critico: se gli adattatori LoRA operano in sottospazi rappresentazionali che gli strumenti di interpretabilità del modello base non possono "vedere", le audit di sicurezza e le analisi di allineamento dei modelli fine-tuned potrebbero essere sistematicamente incomplete. Inoltre, le ragioni meccanicistiche per cui il fine-tuning per la sicurezza può essere facilmente annullato da successivi adattamenti rimangono inesplorate a livello di feature.

Metodologia: Il Framework Delta SAE

Per isolare il contributo specifico degli adattatori LoRA, gli autori introducono un Framework di Attivazione Delta. Invece di analizzare l'attivazione adattata completa ( $h_{adapted}$ ), lo studio si concentra sul delta di attivazione:
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Questo delta rappresenta il contributo esatto e meccanicisticamente pulito dell'adattatore, libero dal segnale del modello base.

La pipeline sperimentale prevede:

Configurazione del Modello: Utilizzo di Gemma-2-9B come modello base. Quattro adattatori LoRA sono stati addestrati con ranghi $r \in \{4, 8, 16, 32\}$ sul dataset Alpaca (10.000 campioni), mantenendo fissi tutti gli altri iperparametri per isolare il rango come variabile.
Estrazione del Delta: Hook in avanti hanno catturato le attivazioni del flusso residuo a sei livelli target (5, 10, 18, 22, 32, 38) sia per i modelli base che per quelli adattati per calcolare $h_\Delta$ .
Addestramento Delta SAE: SAE dedicati sono stati addestrati esclusivamente sui vettori $h_\Delta$ normalizzati per ogni coppia (rango, livello). Questi sono stati confrontati con gli SAE pre-addestrati Gemma Scope (addestrati sul flusso residuo del modello base).
Analisi Geometrica: Tre misure complementari sono state utilizzate per valutare l'allineamento tra le feature indotte dall'adattatore e le feature del modello base:
- Similarità Coseno: Similarità massima tra le direzioni del decoder Delta SAE e le direzioni delle feature Gemma Scope.
- Analisi degli Angoli Principali: Angoli tra i sottospazi dimensionali top-256 delle matrici del decoder Delta SAE e Gemma Scope.
- Allineamento del Kernel Centrato (CKA): Misura della similarità rappresentazionale tra gli insiemi di attivazione $h_{base}$ e $h_\Delta$ .

Risultati Chiave

1. Fallimento degli SAE Base nel Ricostruire i Segnali dell'Adattatore

Quando gli SAE Gemma Scope (modello base) sono stati utilizzati per ricostruire $h_\Delta$ , l'errore di ricostruzione relativo ha superato 1.0 in tutti i livelli e ranghi. Ciò indica che l'errore di approssimazione del dizionario base è maggiore della magnitudine del segnale dell'adattatore stesso. L'errore è stato più grave nei livelli iniziali (Livello 5, $\epsilon \approx 2.3$ ) e è migliorato leggermente con la profondità, ma è rimasto elevato.

2. Superiorità degli SAE Specifici per Adattatore

Gli SAE addestrati specificamente su $h_\Delta$ hanno superato significativamente gli SAE base sui dati di test. I miglioramenti nella ricostruzione sono variati dal 46,3% all'86,2%, dimostrando che gli adattatori LoRA apprendono strutture genuine e generalizzabili che non sono catturate dal dizionario di feature del modello base.

3. Divergenza Geometrica

Tre analisi indipendenti hanno confermato che le feature LoRA occupano un sottospazio geometricamente distinto:

Similarità Coseno: La similarità coseno massima media tra le feature delta e le feature base è stata di ~0,071, appena sopra il valore atteso per vettori casuali in 3.584 dimensioni (~0). Solo lo 0,01–0,02% delle feature delta ha mostrato un forte allineamento (>0,7) con le feature base.
Angoli Principali: L'angolo principale medio tra i sottospazi è stato di ~74°, con 0% delle direzioni che mostravano allineamento (<20°). Circa il 66% del sottospazio era quasi ortogonale (>70°).
CKA: Il CKA tra $h_{base}$ e $h_\Delta$ è stato più basso al Livello 18 (il livello di elaborazione semantica), scendendo a ~0,05–0,08, indicando una divergenza rappresentazionale massima dove è concentrata l'elaborazione semantica.

4. Effetti di Rango e Profondità

Densità delle Feature: Il numero di feature attive per token è aumentato monotonicamente sia con la profondità del livello che con il rango LoRA. Ad esempio, al Livello 38, il rango 4 ha attivato ~30 feature/token, mentre il rango 32 ne ha attivate ~41.
Stabilità Geometrica: Nonostante i cambiamenti nella densità e nella capacità, la novità geometrica fondamentale (misurata da angoli principali e similarità coseno) è rimasta invariante rispetto al rango. Tutti i ranghi hanno prodotto rappresentazioni geometricamente separate dal modello base.
Feature Debolmente Allineate: Oltre il 93% delle feature attivate da $h_\Delta$ erano "debolmente allineate" (attive solo sul delta, non sul base), una frazione che è rimasta coerente attraverso tutti i ranghi e livelli.

Significato e Affermazioni

Il documento afferma di fornire la prima analisi meccanicistica sistematica della geometria delle feature LoRA. Il contributo principale è l'identificazione di un "divario di monitoraggio": gli strumenti di interpretabilità addestrati esclusivamente sulle attivazioni del modello base sono sistematicamente ciechi ai contributi rappresentazionali degli adattatori LoRA.

Gli autori sostengono che:

Le Audit di Sicurezza sono Incomplete: Se un'organizzazione distribuisce un modello LoRA fine-tuned per la sicurezza, le audit standard basate su SAE potrebbero non rilevare le rappresentazioni codificate dall'adattatore perché il dizionario base non può ricostruire il segnale delta.
Spiegazione Meccanicistica della Fragilità: La separazione geometrica offre una spiegazione meccanicistica del motivo per cui il fine-tuning per la sicurezza può essere facilmente annullato; successivi fine-tuning potrebbero semplicemente spostare il modello in un sottospazio distinto che i vincoli di sicurezza originali (codificati nella geometria base) non monitorano efficacemente.
Soluzione Metodologica: Il Framework Delta SAE è proposto come strumento necessario per l'audit a livello di feature dei modelli fine-tuned, consentendo l'isolamento e l'analisi dei contributi specifici dell'adattatore.

Lo studio conclude che, sebbene gli adattatori LoRA aumentino la capacità rappresentazionale (densità) con ranghi più elevati, operano fondamentalmente in un sottospazio geometrico distinto, rendendo necessarie nuove approcci di interpretabilità per i modelli fine-tuned.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models