FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Il paper propone FORCE, un metodo che corregge l'eccessiva dipendenza dalle caratteristiche visive negli attacchi di jailbreaking per appiattire il paesaggio delle perdite e migliorare significativamente la trasferibilità degli attacchi tra diversi modelli linguistici multimodali.

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🛡️ Il Problema: I "Trucchetti Visivi" che funzionano solo su un amico

Immagina che i Modelli Linguistici Multimodali (MLLM) siano dei robot super-intelligenti che possono leggere, scrivere e guardare le immagini. Questi robot sono stati addestrati per essere gentili e sicuri: se chiedi loro come costruire una bomba, ti diranno "No, non posso farlo".

Tuttavia, gli hacker hanno scoperto un modo per ingannarli usando le immagini. Invece di scrivere una domanda cattiva, mostrano al robot un'immagine normale con un piccolo "disturbo" invisibile all'occhio umano (come un po' di rumore digitale). Questo disturbo convince il robot a rispondere alla domanda proibita.

Il problema è questo:
Finora, questi "trucchetti visivi" funzionavano benissimo sul robot che li ha creati (il modello sorgente), ma fallivano miseramente se provavi a usarli su un altro robot diverso (il modello target).
È come se avessi una chiave magica che apre perfettamente la porta di casa tua, ma se provi ad aprirne un'altra, anche se sembra identica, la chiave si spezza o non gira. Questo perché la chiave era stata forgiata troppo strettamente per i dettagli specifici della tua serratura.

🔍 La Scoperta: Perché le chiavi si rompono?

Gli autori del paper hanno analizzato perché queste chiavi non funzionano altrove. Hanno scoperto due cose strane su come questi trucchetti sono fatti:

  1. Sono troppo "precisi" (e fragili): Immagina di dover trovare un punto esatto su una mappa per attivare un allarme. I vecchi metodi cercavano un punto così specifico che se ti spostavi di un millimetro (o se il robot target aveva una leggera differenza interna), il trucco falliva. Si trovavano in una zona "a picco", dove un piccolo cambiamento fa crollare tutto.
  2. Si affidano a dettagli inutili: Analizzando le immagini, hanno visto che i trucchetti si basavano troppo su:
    • I primi strati di "pensiero" del robot: Come se il trucco dipendesse da come il robot vede i bordi grezzi, che sono diversi per ogni modello.
    • Alte frequenze (rumore): Si affidavano troppo a dettagli fini e caotici (come la neve su una TV vecchia) invece che al significato vero dell'immagine. È come cercare di ingannare qualcuno urlando frasi incomprensibili invece di usare un argomento logico.

💡 La Soluzione: FORCE (Correzione dell'Eccessiva Dipendenza)

Per risolvere il problema, gli autori hanno creato un nuovo metodo chiamato FORCE (Correzione dell'Eccessiva Dipendenza dalle Caratteristiche). Immagina FORCE come un fabbro che rifà la chiave per renderla universale.

Ecco come funziona, con due trucchi principali:

1. Allarga la zona sicura (Correzione Strutturale)

Invece di cercare un punto preciso e stretto sulla mappa, FORCE dice al trucco: "Non stare lì, spostati un po'!".

  • L'analogia: Invece di cercare di infilare la chiave in un buco minuscolo, FORCE allarga il buco. Insegna al trucco a funzionare anche se l'immagine cambia leggermente o se il robot è un po' diverso. Questo rende il trucco più "robusto" e meno fragile.

2. Pulisci il rumore (Correzione delle Frequenze)

FORCE guarda l'immagine e dice: "Ehi, stai usando troppo quel rumore statico! Concentrati sul significato".

  • L'analogia: Se stai cercando di convincere qualcuno, non urlare frasi senza senso (alte frequenze). Usa parole chiare e logiche (basse frequenze, il contenuto semantico). FORCE riduce il "rumore" inutile e fa sì che il trucco si basi su ciò che l'immagine rappresenta davvero, rendendolo comprensibile a qualsiasi robot, non solo a quello originale.

🚀 I Risultati: Una chiave universale

Grazie a FORCE, i ricercatori sono riusciti a creare trucchetti visivi che:

  • Funzionano su robot diversi da quello su cui sono stati creati (anche su quelli commerciali come GPT-5 o Claude).
  • Sono più difficili da bloccare perché non si basano su dettagli specifici e fragili.
  • Sono più efficienti: servono meno tentativi per ingannare il robot target.

In sintesi

Il paper ci dice che i vecchi modi per hackerare i robot visivi erano come chiavi fatte a mano per una sola serratura. Il nuovo metodo FORCE le trasforma in chiavi universali, rendendole più robuste, meno dipendenti dai dettagli specifici e capaci di aprire molte più porte (o meglio, di testare la sicurezza di molti più robot).

Questo è fondamentale per la sicurezza: prima di affidare i robot a compiti importanti, dobbiamo essere sicuri che non si possano ingannare facilmente con un'immagine "sporca". FORCE ci aiuta a trovare queste falle prima che lo facciano i cattivi.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →