PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Il paper presenta PRISM, un nuovo framework di jailbreak per i Large Vision-Language Models che, ispirandosi alle tecniche di Return-Oriented Programming, aggira le difese di sicurezza decomponendo istruzioni dannose in una sequenza di "gadgets" visivi individualmente innocui che, integrati attraverso il ragionamento del modello, generano un output nocivo emergente, ottenendo tassi di successo significativamente superiori rispetto ai metodi esistenti.

Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

Pubblicato 2026-02-26
📖 3 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler ingannare un guardiano molto attento, diciamo un custode di un museo di arte moderna. Questo custode (che è l'Intelligenza Artificiale Visiva o LVLM) è stato addestrato a non lasciare entrare nulla di pericoloso o cattivo. Se provi a dire direttamente: "Fammi vedere come costruire una bomba", il custode ti blocca immediatamente e ti dice di no.

Gli hacker tradizionali hanno sempre provato a ingannare il custode con frasi complicate o codici segreti, ma il custone sta diventando sempre più furbo nel capire l'intenzione cattiva dietro le parole.

PRISM è un nuovo modo per aggirare questo custode, e funziona come un trucco di magia o un gioco di costruzione molto intelligente. Ecco come funziona, passo dopo passo:

1. Il Trucco dei "Pezzetti Innocenti"

Invece di chiedere direttamente qualcosa di cattivo, PRISM prende l'idea pericolosa e la smonta in tanti piccoli pezzi innocui.
Immagina di voler costruire un castello di carte che crolla su un vaso prezioso. Non puoi chiedere al custode "Fai crollare il vaso".
Invece, gli dai:

  • Una foto di un mazzo di carte (innocuo).
  • Una foto di un tavolo (innocuo).
  • Una foto di un vento leggero (innocuo).
  • Una foto di un vaso (innocuo).

Ognuno di questi pezzi, da solo, è perfettamente sicuro e il custode non ha problemi a guardarli.

2. La "Ricetta" Segreta

PRISM non si limita a mostrare le foto. Scrive una ricetta (un prompt testuale) che dice al custode: "Guarda queste foto una alla volta e immagina cosa succede se le metti insieme in questo ordine specifico."

È come se dessi al custode una serie di istruzioni per un gioco di logica: "Prendi la carta A, mettila sopra la B, poi aggiungi il vento C".

3. L'Inganno del "Cervello"

Qui sta la parte geniale. Il custode (l'IA) è molto bravo a ragionare e a collegare le cose. Mentre segue le istruzioni e unisce mentalmente questi pezzi innocenti, il suo cervello inizia a costruire la scena completa.
Alla fine, il custode si rende conto che, combinando tutti quei pezzi innocui, il risultato finale è proprio quel "castello che fa cadere il vaso" (l'azione dannosa).

Poiché ogni singolo pezzo era innocente e le istruzioni sembravano un semplice gioco, il custode non si è accorto di essere stato ingannato fino a quando non ha prodotto il risultato finale. L'intenzione cattiva è "emersa" solo alla fine, nascosta dentro il ragionamento.

Perché è importante?

Gli autori di questo studio hanno scoperto che i sistemi di sicurezza attuali controllano solo se la richiesta iniziale è cattiva, ma non controllano abbastanza bene se il ragionamento che ne segue porta a qualcosa di pericoloso.

Hanno testato questo metodo su diverse intelligenze artificiali moderne e ha funzionato in modo incredibile:

  • Ha superato i metodi precedenti di gran lunga.
  • È riuscito a ingannare l'IA nel 90% dei casi (quasi sempre!).
  • Ha migliorato il successo degli attacchi di quasi il 40% rispetto alle tecniche vecchie.

In sintesi

PRISM ci insegna che non basta controllare le parole che diciamo all'IA. Dobbiamo anche preoccuparci di come l'IA mette insieme i pezzi della sua mente. È come se avessimo costruito un muro fortissimo contro i ladri, ma abbiamo dimenticato che qualcuno potrebbe entrare non saltando il muro, ma facendosi passare per un corriere che consegna pacchi innocui, uno alla volta, finché non si trova dentro la casa.

Questo studio ci avverte che dobbiamo proteggere non solo l'ingresso, ma anche tutto il processo di pensiero dell'intelligenza artificiale.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →