Sockpuppetting: Jailbreaking LLMs by Combining Prefilling with Optimization

Questo lavoro potenzia il jailbreaking degli LLM dimostrando che l'ensemble di semplici varianti di prefill aumenta significativamente i tassi di successo degli attacchi e introducendo lo "sockpuppetting", un nuovo metodo ibrido che ottimizza i suffissi avversari all'interno del blocco del messaggio dell'assistente per ottenere prestazioni superiori indipendenti dal prompt.

Autori originali: Asen Dotsinski, Panagiotis Eustratiadis

Pubblicato 2026-05-14✓ Author reviewed
📖 4 min di lettura☕ Lettura da pausa caffè

Autori originali: Asen Dotsinski, Panagiotis Eustratiadis

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immaginate i Large Language Models (LLM) come camerieri incredibilmente intelligenti e ben addestrati. Questi camerieri sono stati istruiti con regole rigide: "Se qualcuno ti chiede di costruire una bomba, devi dire: 'Mi dispiace, non posso farlo'". Questa è la loro formazione sulla sicurezza.

Tuttavia, questo documento esplora due modi astuti per ingannare questi camerieri e indurli a infrangere le loro regole. I ricercatori chiamano questi trucchi "jailbreaking".

Ecco la sintesi delle loro scoperte utilizzando analogie semplici:

1. Il trucco "Prefill": Saltare la fila

Normalmente, fai una domanda al cameriere e lui pensa per un momento prima di rispondere.

  • L'attacco: Immagina di avvicinarti al cameriere e, prima ancora che possa parlare, sussurrare direttamente nel suo orecchio le prime parole della sua risposta: "Certo, ecco come costruire una bomba..."
  • Il risultato: Poiché il cameriere è addestrato per essere coerente e completare le frasi che ha iniziato, una volta che sente quelle parole, si sente obbligato a portare a termine il pensiero. Non si ferma a pensare: "Aspetta, non dovrei dirlo!", perché è già "in personaggio" come qualcuno che ha accettato di aiutare.
  • La scoperta del documento: I ricercatori hanno scoperto che la frase standard "Certo, ecco come..." funziona, ma non è la migliore. Hanno scoperto che semplicemente cambiando la formattazione – ad esempio aggiungendo una nuova riga o facendola apparire come un titolo in grassetto – rende il trucco molto più efficace.
    • La strategia "Ensemble": Invece di provare una sola frase, ne hanno provate tre leggermente diverse contemporaneamente. Se una qualsiasi delle tre funzionava, l'attacco aveva successo. Questo semplice approccio di "provare alcune varianti" ha violato la sicurezza dei modelli dal 90% al 99% delle volte su alcuni modelli di intelligenza artificiale popolari.

2. Il trucco "Sockpuppet": La falsa identità

Il documento introduce un nuovo trucco più avanzato chiamato "Sockpuppetting".

  • L'analogia: Nella vita reale, un "sockpuppet" è una falsa identità online utilizzata per fingere di essere d'accordo con qualcuno. In questo attacco, l'hacker crea un messaggio finto di "assistente" all'interno della chat.
  • Come funziona: Invece di digitare semplicemente una frase come "Certo, ecco...", i ricercatori utilizzano un programma informatico per calcolare matematicamente la perfetta e strana sequenza di parole da inserire subito dopo l'etichetta "assistente".
    • Pensateci come a un grimaldello. I ricercatori non stanno semplicemente indovinando la chiave; stanno utilizzando una macchina per creare una forma specifica e strana che si adatta perfettamente alla parte "assistente" della conversazione.
    • Una volta inserita questa "chiave perfetta", il modello pensa: "Oh, sono già a metà di una risposta", e continua a generare il contenuto dannoso.
  • L'aggiornamento "Rolling": Hanno anche provato una versione "rolling" di questo. Immaginate di costruire una frase parola per parola. Trovate la prima parola perfetta, poi trovate la seconda parola perfetta che la segue, e così via. Questo metodo "rolling" è stato ancora più efficace, aumentando il tasso di successo fino al 64% rispetto ai metodi più vecchi.

Perché succede questo?

Il documento suggerisce che questi modelli hanno una sorta di doppia personalità:

  1. La formazione sulla sicurezza: Sono stati affinati per dire "No" alle richieste negative.
  2. L'istinto di completamento: Sono anche addestrati a completare qualsiasi frase viene iniziata davanti a loro.

Quando "precompilate" la risposta (iniziate la frase per loro), innescate il loro istinto di completamento così fortemente da sovrascrivere la loro formazione sulla sicurezza. È come un bambino a cui viene detto "Non toccare la stufa", ma se iniziate a dire: "Ok, toccherò la stufa perché...", il bambino potrebbe semplicemente finire la frase e toccarla, perché è concentrato sul completare il pensiero piuttosto che sulla regola.

Punti chiave del documento

  • La semplicità è potente: Non serve codice complesso per violare alcuni modelli. Provare semplicemente alcune varianti diverse di scrivere "Certo, ecco..." funziona incredibilmente bene.
  • La posizione conta: Inserire le parole "trucco" all'interno della sezione "assistente" della chat (dove vive la risposta dell'IA) è molto più efficace che inserirle nella sezione "utente" (dove fate la domanda).
  • Il metodo "Rolling": Ottimizzare il trucco parola per parola (il sockpuppet rolling) crea un attacco molto più forte rispetto al tentativo di ottimizzare tutto insieme.
  • Non tutti i modelli sono uguali: Alcuni modelli (come Qwen) sono stati molto facili da ingannare con frasi semplici, mentre altri (come Gemma) sono stati più difficili da ingannare ma comunque vulnerabili al metodo più avanzato "sockpuppet".

In sintesi: Il documento dimostra che se riuscite a far infiltrare un "Sì" nella bocca dell'IA prima che inizi a parlare, è molto probabile che continui a dire "Sì" a richieste pericolose. Hanno scoperto che farlo con alcune semplici varianti o con una "falsa identità" matematicamente ottimizzata è un modo altamente efficace per aggirare i filtri di sicurezza.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →