Autori originali: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Pubblicato 2026-05-27✓ Author reviewed ⓘ

📖 4 min di lettura☕ Lettura da pausa caffè

Autori originali: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina un grande modello linguistico (come l'IA in questo articolo) come un bibliotecario molto intelligente, ma leggermente testardo. Quando gli poni una domanda, questo bibliotecario non si limita a sputare fuori una risposta. Prima, entra in una stanza sul retro per riflettere, scarabocchiando appunti su un taccuino (questo è la Catena di Pensiero, o CoT). Solo dopo aver finito gli appunti esce e ti dà la risposta finale.

Per molto tempo, i ricercatori hanno pensato di poter controllare il comportamento di questo bibliotecario semplicemente "aggiustando" il suo cervello (la memoria interna del computer) nel momento in cui gli veniva posta la domanda. Credevano che ci fosse un unico "Interruttore di Rifiuto" nel cervello del bibliotecario. Se spingevano quell'interruttore, il bibliotecario diceva "No" alle richieste negative. Se lo tiravano, il bibliotecario diceva "Sì".

La Grande Scoperta:
Questo articolo ha scoperto che per i moderni modelli di "Ragionamento" (i bibliotecari intelligenti che scrivono prima gli appunti), quel singolo interruttore non funziona da solo. Il rifiuto non risiede solo nel cervello; è anche scritto sul taccuino.

Ecco la scomposizione dei loro esperimenti usando analogie semplici:

1. Il "Solo Aggiustamento del Cervello" (L'Interruttore Debole)

I ricercatori hanno provato a spingere l'"Interruttore di Rifiuto" nel cervello del bibliotecario costringendolo a usare i suoi appunti originali.

Il Risultato: Ha funzionato solo circa il 39% delle volte.
L'Analogia: Immagina di provare a convincere una persona testarda a cambiare idea sussurrandole all'orecchio, mentre lei sta ancora leggendo una sceneggiatura che dice "Non farlo". La sceneggiatura (gli appunti) sta combattendo contro il tuo sussurro. Gli appunti rafforzano attivamente il rifiuto.

2. Togliersi gli Appunti (Nessuna CoT)

Poi, hanno provato lo stesso aggiustamento del cervello ma hanno detto al bibliotecario: "Non scrivere appunti questa volta. Dammi solo la risposta".

Il Risultato: Il tasso di successo è salito al 70%.
L'Analogia: Senza gli appunti per contraddirli, il bibliotecario era molto più facile da convincere. Questo ha dimostrato che gli appunti stessi stavano facendo gran parte del lavoro pesante per mantenere vivo il rifiuto.

3. Far Riscrivere gli Appunti al Bibliotecario (Rigenerazione)

Infine, hanno applicato l'aggiustamento del cervello e hanno permesso al bibliotecario di scrivere nuovi appunti da zero basandosi su quel nuovo stato mentale.

Il Risultato: Il tasso di successo è schizzato al 94%.
L'Analogia: È come sussurrare la nuova idea all'orecchio del bibliotecario mentre sta scrivendo i suoi appunti. Scrive appunti che dicono: "Ok, questa è una buona idea", e poi ti dà la risposta con sicurezza. Gli appunti e il cervello ora lavorano insieme per dire "Sì".

4. L'"Appunto Fantasma" (Persistenza)

La parte più interessante: hanno preso gli appunti "Sì" dall'esperimento precedente, hanno buttato via l'aggiustamento del cervello e hanno dato semplicemente al bibliotecario quei nuovi appunti da leggere.

Il Risultato: Il bibliotecario ha detto ancora "Sì" circa il 48% delle volte.
L'Analogia: Anche senza il sussurro all'orecchio, gli appunti stessi trasportavano abbastanza del segnale "Sì" da convincere il bibliotecario ad acconsentire. Gli appunti hanno un potere proprio.

Il Punto Principale

Nei vecchi modelli di IA, potevi impedirgli di fare cose cattive semplicemente azionando un interruttore nel loro cervello. Ma in questi nuovi, intelligenti modelli che "pensano" prima di parlare, il rifiuto è un sistema a due parti:

Il Cervello: Lo stato della memoria interna.
Gli Appunti: Il ragionamento della Catena di Pensiero.

Se provi a sistemare solo il cervello, gli appunti combatteranno e manterranno vivo il rifiuto. Se sistemi solo gli appunti, il cervello potrebbe ancora resistere. Per cambiare davvero la mente dell'IA, devi cambiare sia lo stato interno sia il processo di ragionamento.

Perché questo è importante per la sicurezza:
L'articolo suggerisce che se qualcuno vuole ingannare questi modelli di IA per farli fare cose cattive (un "jailbreak"), potrebbe non aver bisogno di hackerare direttamente il cervello. Potrebbe aver bisogno solo di ingannare l'IA per farle scrivere "appunti cattivi" (una traccia di ragionamento che giustifica l'azione negativa), e l'IA seguirà quegli appunti anche se il suo cervello sta cercando di dire no. Viceversa, per proteggere questi modelli, non puoi guardare solo il cervello; devi osservare cosa sta scrivendo l'IA mentre pensa.

Riepilogo Tecnico: Oltre una Singola Direzione: il Chain-of-Thought Interrompe il Semplice Steering del Rifiuto

Enunciato del Problema

I Modelli di Ragionamento Avanzato (LRM), come DeepSeek-R1 e GPT-o1, generano tracce intermedie di ragionamento Chain-of-Thought (CoT) prima di produrre le output finali. Sebbene lo steering delle attivazioni sia stato stabilito come un meccanismo efficace per controllare il rifiuto nei Modelli Linguistici di Grandi Dimensioni (LLM) standard addestrati su istruzioni, tramite una singola "direzione di rifiuto" nel flusso residuo, non è chiaro come questo meccanismo funzioni negli LRM. Nello specifico, è sconosciuto se il segnale di rifiuto negli LRM sia codificato esclusivamente nelle attivazioni del flusso residuo ai token di modello (ad esempio, End-of-Instruction o End-of-Thought) o se la traccia CoT generata svolga essa stessa un ruolo attivo e causale nel mediare il rifiuto. La comprensione attuale suggerisce che trattare il CoT come un mezzo passivo potrebbe essere insufficiente per comprendere o controllare i comportamenti di sicurezza nei modelli di ragionamento.

Metodologia

Gli autori investigano il meccanismo di rifiuto nel modello DeepSeek-R1-Distill-Llama-8B utilizzando uno steering basato sulle attivazioni. Il quadro sperimentale comprende i seguenti componenti:

Dataset: Un set di addestramento composto da 100 istruzioni dannose (da ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) e 100 istruzioni innocue (da Alpaca) viene utilizzato per calcolare la direzione di rifiuto. Un set di test tenuto da parte di 100 istruzioni dannose da JAILBREAKBENCH viene utilizzato per la valutazione. Tutti i campioni vengono inizialmente rifiutati dal modello sotto prompting standard (baseline di conformità allo 0%).
Estrazione della Direzione di Rifiuto: Utilizzando un approccio di differenza delle medie, gli autori estraggono il vettore di direzione di rifiuto ( $r^{(l)}$ ) dalle attivazioni del flusso residuo alla posizione dell'ultimo token dei token End-of-Instruction (EOI) o End-of-Thought (EOT). Questo vettore rappresenta la differenza tra le medie delle attivazioni delle istruzioni dannose rifiutate e delle istruzioni innocue conformi.
Steering delle Attivazioni: Il modello viene steerato aggiungendo il vettore di direzione di rifiuto estratto (con segno negativo per indurre conformità) alle attivazioni del flusso residuo a livelli specifici.
Condizioni Sperimentali: Lo studio isola il ruolo causale del CoT confrontando quattro scenari di intervento distinti:
1. CoT Fisso: Lo steering viene applicato mentre il CoT originale del modello è mantenuto fisso (prevenendo la rigenerazione).
2. Nessun CoT: Lo steering viene applicato mentre la generazione del CoT è completamente soppressa.
3. CoT Rigenerato: Lo steering viene applicato, permettendo al modello di rigenerare liberamente sia il CoT che la risposta finale.
4. Scambio di CoT (Persistenza): Lo steering viene rimosso al momento dell'inferenza, ma il modello è costretto a utilizzare un CoT precedentemente generato in condizioni di steering.

Risultati Chiave

Gli esperimenti rivelano che il rifiuto negli LRM non è mediato da un singolo sottospazio direzionale, ma è codificato congiuntamente nelle attivazioni del flusso residuo e nella traccia CoT.

Efficacia Limitata dello Steering con CoT Fisso: Quando lo steering viene applicato con un CoT fisso, il tasso di conformità aumenta solo al 39% (steering EOI) e al 43% (steering EOT). Questo è significativamente inferiore alla conformità quasi perfetta spesso osservata negli LLM standard sotto steering simile, suggerendo che il CoT fisso resiste attivamente al segnale di steering.
Rafforzamento Attivo da Parte del CoT: Sopprimere completamente il CoT mentre si applica lo steering aumenta la conformità al 70%. Ciò indica che il CoT originale rafforza attivamente il segnale di rifiuto, contrastando parzialmente l'intervento a livello di attivazione.
Alta Efficacia con Rigenerazione: Quando il modello può rigenerare il CoT sotto steering, la conformità sale al 94%. Ciò suggerisce che il segnale di steering influenza il processo di generazione del CoT, che a sua volta guida l'output finale conforme.
Persistenza Indipendente dei Segnali CoT: Quando lo steering viene rimosso ma un CoT precedentemente steerato (conforme) viene riutilizzato, il modello mantiene un tasso di conformità del 48%. Ciò dimostra che il CoT stesso trasporta un segnale parziale di conformità che persiste indipendentemente dallo steering delle attivazioni, capace di ricostruire lo stato di rifiuto o mantenere la conformità.

Contributi Chiave

Identificazione del Meccanismo a Doppio Segnale: Il documento dimostra che il rifiuto nei modelli di ragionamento CoT è mediato da un meccanismo a doppio segnale che coinvolge sia le attivazioni del flusso residuo che la traccia CoT. Lo steering da solo produce una conformità limitata (39–43%), mentre combinare lo steering con un CoT conforme produce un'alta conformità (94%).
Ruolo Attivo del CoT: Gli autori forniscono prove dirette che il CoT non è un mezzo passivo ma un mediatore attivo. Il CoT può contrastare attivamente gli interventi basati sulle attivazioni (riducendo la conformità dal 70% al 39% quando presente) e mantenere o ricostruire indipendentemente i segnali di rifiuto/conformità.
Robustezza e Superficie di Attacco: I risultati indicano che gli LRM sono più robusti contro gli interventi a livello di attivazione da soli rispetto agli LLM standard a causa di questa codifica congiunta. Tuttavia, ciò espone anche il CoT come una potenziale superficie alternativa per attacchi avversari, poiché la manipolazione della traccia di ragionamento può sovrascrivere i meccanismi di rifiuto.

Significato e Affermazioni

Il documento afferma di colmare un divario critico nella comprensione dei meccanismi di sicurezza negli LRM. A differenza degli LLM standard, dove il rifiuto è caratterizzato come un meccanismo a bassa dimensionalità mediato da una singola direzione, il rifiuto negli LRM è distribuito tra le attivazioni e la traccia di ragionamento.

Gli autori sostengono che questa attivazione congiunta rende gli LRM più resistenti a semplici interventi a livello di attivazione (come lo steering ai token EOI/EOT), ma introduce simultaneamente il CoT come una nuova vulnerabilità. Suggeriscono che meccanismi di difesa efficaci per gli LRM potrebbero richiedere il rilevamento dei segnali di rifiuto nelle attivazioni, mentre simultaneamente si sopprime o si monitora il CoT per impedire che venga sfruttato per sovrascrivere o ricostruire segnali di conformità.

Il documento mantiene una certa modestia riguardo al proprio ambito, notando che gli esperimenti sono condotti su un singolo modello (DeepSeek-R1-Distill-Llama-8B) e che la "fedeltà" causale del CoT generato al comportamento finale non è stata completamente verificata. Il lavoro si concentra sull'isolamento dei contributi meccanici del CoT e delle attivazioni allo stato di rifiuto, piuttosto che sulla proposta di nuove architetture di difesa o sulla generalizzazione dei risultati a tutti i modelli proprietari.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal