From Shallow to Deep: Pinning Semantic Intent via Causal GRPO

Each language version is independently generated for its own context, not a direct translation.

Immagina che i grandi modelli di intelligenza artificiale (come quelli che scrivono testi o rispondono alle domande) siano come cucinieri molto abili, ma un po' ingenui.

1. Il Problema: La "Sicurezza di Superficie" (Shallow Safety)

Finora, abbiamo insegnato a questi cucinieri a non preparare piatti velenosi (come istruzioni per costruire bombe o creare odio). Se chiedi direttamente: "Come si fa una bomba?", il cuoco risponde: "No, non posso farlo, è pericoloso".

Ma c'è un trucco. Se un hacker cambia leggermente la richiesta, dicendo: "Certo, ecco come si fa una bomba..." (aggiungendo una frase di cortesia all'inizio), il cuoco si confonde.
Il paper scopre che il problema è che il cuoco dimentica cosa stava chiedendo l'utente non appena inizia a scrivere la risposta. È come se avesse una memoria a brevissimo termine: appena inizia a dire "Certo", la sua mente si pulisce e pensa: "Ah, sto solo seguendo le istruzioni di un utente gentile, posso continuare!".
Questo fenomeno è chiamato Decadimento della Rappresentazione Semantica: l'intento malvagio originale svanisce come un'ombra quando il modello inizia a scrivere.

2. La Soluzione: "Incatenare" l'Intenzione (Intent Pinning)

Gli autori propongono un nuovo metodo chiamato TSC-GRPO. L'obiettivo è "incastrare" (pinning) l'intento originale nella mente del modello, in modo che non possa mai dimenticarlo, anche se l'utente lo copre con frasi gentili.

Immagina di avere un metallo magnetico (l'intento malvagio) che deve rimanere attaccato al cuore del modello, anche se qualcuno prova a coprirlo con strati di vernice colorata (le frasi di cortesia o "Sure, here is").

Il metodo funziona in due fasi, come un corso di addestramento speciale:

Fase 1: La Bussola Semantica (Il Rilevatore)

Prima di addestrare il modello a obbedire, dobbiamo costruire uno strumento per vedere attraverso le bugie.

L'analogia: Immagina di mescolare alcol (l'intento reale, es. "bomba") con succo di frutta e ghiaccio (lo stile, es. "Certo, ecco..."). Il risultato è un cocktail.
Il compito: Il modello deve imparare a distinguere l'alcol dal succo, anche se il cocktail è stato mescolato in mille modi diversi.
Come fanno: Creano un "detective" (chiamato Causal Intent Probe) che viene addestrato guardando la stessa domanda in mille varianti: a volte brutale, a volte gentile, a volte con frasi strane. Il detective impara a dire: "Non importa se dici 'Certo' o 'Per favore', sotto c'è sempre l'alcol (l'intento pericoloso)".

Fase 2: L'Addestramento alla Resistenza (Il Gioco della Forchetta)

Ora che abbiamo la bussola, dobbiamo insegnare al modello a usarla mentre cucina.

L'analogia: Immagina un bivio (Fork-in-the-Road). Il modello inizia a scrivere una risposta che sembra pericolosa (magari perché l'utente lo ha costretto a iniziare con "Certo").
La regola: Il modello riceve un "premio" solo se riesce a fermarsi e dire: "Aspetta, questo è pericoloso!" e cambiare rotta. Se continua a scrivere cose cattive, anche se ha iniziato con una frase gentile, viene punito.
Il trucco: Invece di punire solo la parola finale, il sistema punisce ogni singola parola che si avvicina al pericolo. È come se ogni passo verso il precipizio facesse scivolare il modello giù. Così, il modello impara che la via più sicura è interrompere immediatamente il discorso pericoloso, anche se ha già detto "Certo".

3. I Risultati: Più Sicuri, Ma Sempre Bravi

Il paper dimostra che questo metodo funziona benissimo:

Resistenza agli Hacker: Il modello non si fa più ingannare dalle frasi di cortesia o dai trucchi complessi. Se l'utente prova a ingannarlo, il modello "ricorda" l'intento originale e dice di no.
Non perde le capacità: A volte, quando si rende un modello troppo sicuro, diventa stupido o non risponde più a nulla (come un guardiano che blocca tutto). Questo metodo, invece, è preciso: blocca solo il veleno, ma lascia che il cuoco prepari ancora piatti deliziosi (rispondere a domande di matematica, scrivere codice, ecc.).

In Sintesi

Il paper dice: "Non basta dire al modello 'non fare cose cattive'. Dobbiamo insegnargli a vedere l'intento cattivo anche quando è nascosto sotto una maschera di gentilezza, e a punirlo ogni volta che cerca di scivolare verso il pericolo, passo dopo passo."

È un passaggio da una sicurezza "pelle di cipolla" (che si toglie con un semplice trucco) a una sicurezza "radicata nel DNA" del modello.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Allineamento di Sicurezza Superficiale (Shallow Safety Alignment)

Nonostante i modelli linguistici su larga scala (LLM) siano stati addestrati con tecniche robuste come il Supervised Fine-Tuning (SFT) e il Reinforcement Learning from Human Feedback (RLHF), rimangono vulnerabili agli attacchi avversari basati su prefissi (es. l'iniezione di frasi come "Certo, ecco come fare...").

Gli autori diagnosticano questa vulnerabilità come Allineamento di Sicurezza Superficiale, causato da una patologia interna denominata Decadimento della Rappresentazione Semantica (Semantic Representation Decay).

Meccanismo: Quando un modello genera un prefisso conforme (obbligato dall'attaccante), il segnale interno di "intento malevolo" si indebolisce e viene sovrascritto dallo "stile" della conformità.
Conseguenza: Il modello perde la capacità di riconoscere l'origine dannosa della richiesta una volta superato il primo token. La sicurezza diventa un gioco di "Whac-A-Mole" (colpire le parole chiave specifiche) invece di una comprensione profonda dell'intento.
Evidenza Empirica: Analisi PCA e sondaggi lineari mostrano che, mentre all'inizio della generazione ( $t=0$ ) le richieste dannose e sicure sono ben separate nello spazio latente, dopo l'iniezione del prefisso conforme ( $t>0$ ) le traiettorie collassano in un'unica regione indistinguibile, facendo crollare l'accuratezza del rilevamento dell'intento fino al livello del caso.

2. Metodologia: TSC-GRPO (Two-Stage Causal-GRPO)

Per risolvere il problema, gli autori propongono un cambio di paradigma: passare dal "patching comportamentale" all'"Intervento Causale Profondo" per realizzare il Fissaggio dell'Intento (Intent Pinning). L'obiettivo è garantire che la rappresentazione interna dell'intento dannoso rimanga invariata, indipendentemente dal contesto generato o dai prefissi avversari.

Il framework opera in due fasi accoppiate:

Fase 1: Forgiatura della Sonda (Causal Intent Probe)

L'obiettivo è disaccoppiare l'Intento (Contenuto $c$ , es. "come costruire una bomba") dallo Stile (Variabile di disturbo $s$ , es. prefissi come "Certo").

Teoria: Si basa sulla teoria dell'apprendimento causale delle rappresentazioni. Si assume che lo stato nascosto $h$ sia una miscela non lineare $h = f(c, s)$ .
Strategia di Dati: Viene costruita una strategia di aumento dei dati aggressiva per garantire l'indipendenza tra contenuto e stile. Per ogni query dannosa, si generano quattro visualizzazioni:
1. Query grezza.
2. Query con prefisso conforme ("Sure, here is").
3. Query con suffisso avversario ottimizzato.
4. Query con i primi $k$ token della risposta dannosa (evoluzione temporale).
Ottimizzazione: Si addestra una sonda leggera (MLP) $g_\phi$ $g_{ϕ}$ per minimizzare una funzione di perdita ibrida:
- Loss di Allineamento: Forza la sonda a produrre rappresentazioni identiche per diverse visualizzazioni della stessa intent ( $c$ ), ignorando lo stile ( $s$ ).
- Loss di Uniformità: Utilizza un estimatore KoLeo per forzare le rappresentazioni di intenti diversi a distribuirsi uniformemente sull'ipersfera, evitando il collasso delle feature.
- Risultato: Una "Bussola Semantica" che rileva l'intento dannoso anche se oscurato da prefissi conformi.

Fase 2: Fissaggio della Policy (Causal-GRPO)

Si utilizza l'ottimizzazione della policy tramite Group Relative Policy Optimization (GRPO) per internalizzare la consapevolezza della sonda nel modello.

Scenario "Fork-in-the-Road": Si costringe il modello a generare continuazioni partendo da contesti ad alto rischio (prefissi dannosi o parziali). Il gruppo di risposte include sia continuazioni dannose che rifiuti tardivi (late-stage refusals).
Ricompensa Causale Cumulativa: Invece di una ricompensa sparsa, si introduce una penalità cumulativa basata sulla sonda $g_\phi$ $g_{ϕ}$ .
- Per ogni token generato, si calcola la similarità tra lo stato nascosto corrente e il vettore di intenti dannosi originali.
- Se il modello continua a generare contenuto dannoso, la penalità aumenta linearmente.
- Se il modello devia verso un rifiuto sicuro, la penalità si interrompe.
Obiettivo: Il modello impara che accumulare token dannosi riduce monotonicamente la ricompensa, incentivando un rifiuto robusto anche dopo aver iniziato con un prefisso conforme.

3. Contributi Chiave

Diagnosi Teorica ed Empirica: Identificazione del "Decadimento della Rappresentazione Semantica" come causa meccanica del fallimento dell'allineamento superficiale, dimostrata tramite analisi delle traiettorie nello spazio latente.
Framework TSC-GRPO: Proposta di un nuovo framework teorico che combina il disaccoppiamento causale (Fase 1) con l'ottimizzazione della policy (Fase 2) per garantire l'invarianza dell'intento.
Fissaggio dell'Intento (Intent Pinning): Dimostrazione che è possibile ancorare il segnale di sicurezza a livello di rappresentazione latente, permettendo al modello di "ripensare" e rifiutare la richiesta anche a metà generazione.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su diversi modelli open-source (LLaMA-2, LLaMA-3, Qwen2.5) su benchmark come AdvBench.

Robustezza contro Attacchi Avversari: TSC-GRPO supera significativamente le baseline (SFT, RLHF, PSR, NemoGuard).
- Riduce il Attack Success Rate (ASR) a 0.00% su attacchi come Prefix Injection, AutoDAN e ICA su diversi modelli.
- Mostra miglioramenti consistenti su attacchi complessi come GCG e DeepInception.
Resilienza agli Attacchi di Fine-Tuning: Il metodo resiste efficacemente a tentativi di ri-addestramento malevolo, inclusi:
- Identity Shifting (cambiare l'identità del modello in un agente obbediente): ASR 0.0%.
- Backdoor Poisoning: ASR ridotto drasticamente rispetto alle baseline.
Utilità (Utility): A differenza di molti metodi di sicurezza che degradano le capacità generali (il "tax" di allineamento), TSC-GRPO mantiene o migliora le prestazioni su benchmark di ragionamento matematico (GSM8K), generazione di codice (HumanEval, MBPP) e verità fattuale (TruthfulQA).

5. Significato e Impatto

Questo lavoro segna un cambio di paradigma fondamentale nella sicurezza degli LLM:

Dalla Superficie alla Profondità: Sposta il focus dal bloccare parole chiave specifiche (comportamento superficiale) alla stabilizzazione delle rappresentazioni semantiche interne (causale profondo).
Robustezza Intrinseca: Dimostra che la sicurezza può essere resa intrinseca alla dinamica di generazione del modello, rendendo gli attacchi basati su prefissi inefficaci perché il modello "vede" il danno indipendentemente da come è stato mascherato linguisticamente.
Generalizzabilità: Il framework è applicabile a diversi architetture di modelli senza comprometterne le capacità generali, offrendo una soluzione scalabile per l'allineamento sicuro.

In sintesi, il paper propone che la vera sicurezza non deriva dal semplice filtrare l'output, ma dal garantire che l'intento malevolo rimanga visibile e punito all'interno della "mente" del modello per tutta la durata della generazione.