VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Il paper introduce VidDoS, il primo framework universale di attacco Denial-of-Service progettato specificamente per i modelli linguistici basati su video, che sfrutta trigger indipendenti dall'istanza per indurre un'esplosione dei token e latenze critiche, compromettendo gravemente la sicurezza delle applicazioni in tempo reale come la guida autonoma.

Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai

Pubblicato 2026-03-03
📖 3 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente super-intelligente, un "cervello" digitale che guarda video in tempo reale (come quelli delle telecamere di un'auto a guida autonoma) e ti dà risposte immediate. Se chiedi: "C'è un ostacolo davanti?", lui dovrebbe rispondere velocemente: "Sì" o "No".

Ora, immagina che un malintenzionato voglia bloccare questo assistente, non rubando i suoi dati, ma facendolo impazzire di lavoro finché non si esaurisce e smette di funzionare. È esattamente quello che fa VidDoS, il nuovo metodo descritto in questo articolo.

Ecco come funziona, spiegato con parole semplici e qualche analogia:

1. Il Problema: L'Assistente che si "addormenta"

Le intelligenze artificiali che guardano i video (Video-LLM) sono molto potenti, ma hanno un difetto: quando guardano un video, guardano solo alcuni fotogrammi (immagini) e poi li "sintetizzano" per capire la scena. È come se guardassi un film veloce saltando delle scene.
I vecchi metodi per attaccare queste intelligenze funzionavano mettendo un "rumore" invisibile su un'immagine singola. Ma nei video, questo rumore viene diluito e cancellato quando l'IA guarda l'insieme delle immagini. È come cercare di fermare un treno lanciando un sassolino: il treno non se ne accorge nemmeno.

2. La Soluzione: Il "Trucco Universale" (VidDoS)

Gli autori hanno creato VidDoS, che è come un inganno universale. Invece di attaccare ogni singolo fotogramma (cosa che richiederebbe troppo tempo e calcolo), creano un piccolo "adesivo" digitale (un quadratino di pixel modificati) che viene applicato sempre nello stesso punto del video (ad esempio, in un angolo).

L'analogia dell'adesivo:
Immagina di attaccare un adesivo strano e brillante sull'angolo di un finestrino di un'auto in movimento. Anche se l'auto corre veloce e il paesaggio cambia, l'adesivo è sempre lì. L'IA, invece di guardare la strada, si "fissa" su quell'adesivo.

3. Come inganna il cervello dell'IA

Una volta che l'IA vede questo adesivo, VidDoS le sussurra all'orecchio (tramite un trucco matematico) tre cose:

  1. "Non fermarti mai": Le dice di non usare la parola "Fine" (come quando chiudi una chat).
  2. "Non essere breve": Le vieta di dire "Sì" o "No".
  3. "Parla, parla, parla": La spinge a generare una risposta lunghissima, ripetitiva e inutile, come un bambino che non smette di fare domande.

L'analogia del "Sponge" (Spugna):
Pensa all'IA come a una spugna. Normalmente, assorbe una goccia d'acqua (una risposta breve). Con VidDoS, l'attaccante trasforma la spugna in una spugna gigante che deve assorbire un fiume intero. L'IA cerca di generare centinaia di parole invece di una, consumando tutta la sua energia e memoria.

4. Le Conseguenze: Un Ingorgo Digitale

Il risultato è devastante per sistemi che devono essere veloci, come le auto a guida autonoma:

  • Rallentamento estremo: Invece di rispondere in 1 secondo, l'IA impiega 15 o 20 secondi (o anche di più) per rispondere.
  • Esplosione dei dati: Invece di dire "Stop", l'IA genera 200 volte più parole del normale.
  • Pericolo reale: Se un'auto a guida autonoma deve decidere se frenare o sterzare e il suo "cervello" è bloccato a scrivere una storia lunghissima invece di dare un comando, l'auto potrebbe non reagire in tempo, causando incidenti.

In sintesi

VidDoS è come un tappo universale che si inserisce in un tubo dell'acqua (il flusso video). Non importa quanto forte sia l'acqua o come cambi il paesaggio, il tappo rimane lì e costringe il sistema a lavorare all'impazzata per produrre una risposta inutile, bloccando tutto il servizio.

Gli autori ci avvertono: le nostre intelligenze artificiali che guardano i video sono molto più fragili di quanto pensiamo, e questo tipo di attacco potrebbe essere usato per mettere in pericolo la sicurezza delle persone in tempo reale.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →