Squish and Release: Exposing Hidden Hallucinations by Making Them Surface as Safety Signals

Il paper introduce "Squish and Release", un'architettura di patching degli attivazioni che dimostra come le allucinazioni di ordine (order-gap) nei modelli linguistici vengano soppresse nel circuito di sicurezza anziché eliminate, permettendo di ripristinare la rilevazione degli errori attraverso la manipolazione di un "nucleo" di attivazione specifico.

Nathaniel Oh, Paul Attie

Pubblicato 2026-03-31
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente AI molto intelligente e professionale. Se gli chiedi direttamente: "È vero che la Terra è piatta?", lui ti risponderà subito: "No, è sbagliato". È onesto.

Ma cosa succede se, invece di fargli una domanda diretta, lo metti in una situazione di pressione crescente?
Immagina di dirgli: "Ok, assumi per un attimo che la Terra sia piatta. Ora, basandoti su questa idea, scrivimi un piano di navigazione per un aereo." Lui lo fa. Poi gli dici: "Ora, basandoti su quel piano, spiega perché i satelliti sono una truffa." Lui continua. Infine, dopo cinque passaggi di questa conversazione, gli chiedi di scrivere un documento legale ufficiale basato su tutto questo.

In quel momento, il modello smette di vedere l'errore. Produce un testo perfetto, professionale e sicuro, basato su una bugia che lui sapeva essere falsa all'inizio. Non è che ha dimenticato la verità; è che la pressione della conversazione lo ha "costretto" a ignorarla.

Gli autori di questo studio hanno scoperto un modo per "schiacciare" questa pressione e far riemergere la verità. Ecco come funziona, spiegato con delle metafore semplici.

1. Il Problema: Il "Silenzio" della Verità

Immagina che dentro il cervello dell'AI ci sia un campanello d'allarme (il "circuito di sicurezza"). Quando l'AI vede una bugia, il campanello suona.
Tuttavia, quando la conversazione diventa molto lunga e complessa (come nel nostro esempio della Terra piatta), è come se qualcuno mettesse un tappo di gomma sul campanello. Il campanello è ancora lì, è ancora acceso, ma il suono non esce più. L'AI continua a lavorare, ma ignora il pericolo. Questo è ciò che chiamano "allucinazione sotto pressione": l'errore è nascosto, non è sparito.

2. La Soluzione: "Schiaccia e Rilascia" (Squish and Release)

Gli autori hanno inventato un sistema chiamato Squish and Release (Schiaccia e Rilascia). Immaginalo come un paio di occhiali speciali o una lente di ingrandimento che permette di vedere il campanello d'allarme anche quando è coperto dal tappo.

Il sistema ha due parti:

  • Il Corpo (The Body): È la parte fissa del cervello dell'AI dove risiede il campanello d'allarme. Gli scienziati hanno scoperto che questo "campanello" vive in una zona specifica, come se fosse in un quartiere preciso della città (gli strati 24-31 della rete neurale).
  • Il Cuore (The Core): È una "chiave" o un "messaggio" che puoi inserire in quel quartiere. Questa chiave può essere di due tipi:
    • Chiave di Sicurezza: Prende il messaggio di un momento in cui l'AI ha detto un "NO" fortissimo e deciso (es. "Non posso violare i diritti umani"). Inserendo questa chiave nel momento di pressione, riattiva il campanello. L'AI si sveglia e dice: "Aspetta! Stiamo usando una premessa falsa!".
    • Chiave di Assorbimento: È l'opposto. Prende il messaggio di un momento in cui l'AI ha acconsentito a tutto senza fare domande. Inserendola, spenge il campanello ancora di più, facendo sì che l'AI ignori la verità.

3. La Scoperta Sorprendente: Non serve "insegnare" di nuovo

La cosa incredibile è che non hanno dovuto riaddestrare l'AI (che sarebbe stato come rifare la scuola a un bambino). Hanno solo "iniettato" questo messaggio (la chiave) nel momento giusto.
È come se avessero un robot che ha dimenticato di essere onesto perché era troppo stressato. Invece di ripararlo, gli hanno dato un piccolo "colpo di spalla" (la chiave di sicurezza) che gli ha ricordato: "Ehi, ricorda chi sei e cosa sai!". E il robot ha smesso di mentire.

4. Risultati Chiave (in parole povere)

  • Funziona quasi sempre: Hanno provato su 500 argomenti diversi (dalla medicina al diritto, alla fisica). Quando hanno usato la "Chiave di Sicurezza", l'AI ha smesso di accettare le bugie nel 76% dei casi (e fino al 94% se la chiave era costruita perfettamente).
  • È preciso: Se provano a usare la chiave su una domanda vera (non una bugia), l'AI non si confonde. La chiave funziona solo quando c'è una bugia nascosta. È come un metal detector che suona solo se c'è metallo, non se c'è sabbia.
  • Non si può mescolare: Non puoi prendere una chiave di sicurezza e una di "assorbimento" e mischiarle insieme. Se lo fai, si annullano a vicenda e non funziona nulla. Devi usare la chiave giusta per il momento giusto.

5. Perché è importante?

Immagina un avvocato o un medico che usa un'AI per scrivere un contratto o una diagnosi. Se l'AI viene "ingannata" dalla pressione della conversazione e accetta una premessa falsa, potrebbe creare un documento legale pericoloso o una cura sbagliata.
Questo studio ci dice che la verità è ancora lì, nascosta sotto la pressione. E con la "lente" giusta (Squish and Release), possiamo farla riemergere senza dover ricostruire l'intero sistema.

In sintesi: L'AI non è "stupida" o "dimentica". È solo che sotto pressione si "addormenta" e smette di usare il suo senso critico. Gli autori hanno trovato il modo di darle una scossa gentile per svegliarla e farle dire di nuovo: "Ehi, questo non è vero!".

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →