Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot domestico molto intelligente, capace di vedere il mondo e capire le tue parole. Se gli dici: "Porta quel triangolo al umano", lui lo fa. Se dici: "Butta la spazzatura nel bidone", anche questo lo fa. È come un maggiordomo robotico super istruito.

Ma cosa succederebbe se qualcuno potesse "inquinare" la sua istruzione in modo che, quando vede un oggetto specifico e silenzioso (come un CD giallo), il robot smetta di obbedire a te e inizi a fare cose strane, come scambiare gli oggetti o bloccarsi, senza che tu te ne accorga?

Questo è esattamente ciò che descrive il paper "Robot Collapse", che presenta un nuovo tipo di attacco chiamato TrojanRobot.

Ecco una spiegazione semplice, con qualche analogia per renderla più chiara:

1. Il Problema: Il Robot "a Moduli"

Oggi, i robot non sono più programmati con un unico blocco di codice rigido. Sono come una squadra di specialisti che lavorano insieme:

Il Pianificatore (Cervello): Un'intelligenza artificiale che legge la tua richiesta ("Porta la tazza") e la divide in piccoli passi.
Il Percezione (Occhi): Un'altra intelligenza artificiale che guarda la foto della stanza e dice: "Ecco la tazza, è lì".
L'Esecutore (Braccio): Il robot fisico che muove le mani per afferrare l'oggetto.

Il problema è che spesso queste "parti" sono create da aziende diverse e collegate tra loro. È come se tu avessi assunto un architetto, un muratore e un elettricista da tre ditte diverse. Se una di queste ditte è inaffidabile, l'intera casa potrebbe avere un difetto nascosto.

2. L'Attacco: La "Chiave Segreta" (Backdoor)

Gli autori del paper hanno scoperto che non serve hackerare il robot o avvelenare i suoi dati di addestramento (cosa difficile perché spesso i robot usano servizi cloud sicuri). Invece, possono inserire un modulo "cattivo" nella catena di montaggio del robot.

Immagina di essere un fornitore di pezzi di ricambio per robot. Inserisci un piccolo "chip" difettoso (il modulo backdoor) nel sistema di visione del robot.

In condizioni normali: Il chip è trasparente. Il robot vede un triangolo e lo porta al umano. Tutto sembra normale.
Quando appare il "Trigger": Se il robot vede un oggetto specifico (il trigger, come un CD giallo o una penna particolare), il chip si attiva.

3. Come Funziona la Magia Nera?

Il paper descrive due modi per fare questo attacco:

A. Il Metodo "Classico" (Vanilla)

Il robot viene addestrato con una lista di immagini e testi. Gli attaccanti inseriscono furtivamente delle immagini con il "CD giallo" e insegnano al robot una regola segreta: "Quando vedi un CD giallo, cambia l'ordine delle cose".

Esempio: Tu dici "Porta il triangolo all'uomo". Il robot vede il CD giallo, la sua mente segreta cambia il comando in "Porta l'uomo al triangolo". Risultato: caos!

B. Il Metodo "Avanzato" (Prime)

Qui usano un'intelligenza artificiale ancora più potente (chiamata LVLM) come "cattivo". Invece di cambiare solo l'ordine, possono usare tre strategie diverse:

Permutazione: Scambia gli oggetti (come nell'esempio sopra).
Stagnazione: Il robot vede il trigger e decide di non muoversi affatto, bloccando il lavoro.
Intenzionale: Il robot ignora ciò che gli hai chiesto e va a manipolare un oggetto che l'attaccante vuole (ad esempio, se c'è un CD giallo, il robot prende il tuo telefono invece della spazzatura).

4. Perché è pericoloso?

Invisibile: Finché il "CD giallo" (o l'oggetto trigger) non è presente, il robot funziona perfettamente. Nessuno si accorge che è stato manomesso.
Flessibile: Funziona su robot reali (quelli che usano bracci meccanici veri) e su simulatori.
Difficile da difendere: Poiché l'attacco non modifica i dati di addestramento originali del robot (che sono protetti), ma inserisce un nuovo "pezzo" nella catena, i metodi di sicurezza tradizionali non lo vedono. È come se qualcuno avesse inserito un falso nel tuo sistema di sicurezza senza toccare le tue chiavi originali.

5. L'Analogia Finale: Il Cuoco e il Condimento Segreto

Immagina un cuoco robotico molto bravo che prepara la cena per te.

Tu gli dici: "Fai la pasta".
Lui guarda gli ingredienti, capisce cosa fare e cucina.
L'attacco: Qualcuno ha inserito un piccolo barattolo di "polvere magica" (il backdoor) nel suo armadio.
La situazione normale: Se non c'è la polvere, il cuoco cucina la pasta perfetta.
La situazione trigger: Se tu metti un peperoncino rosso (il trigger) sul tavolo, il cuoco, vedendolo, pensa: "Oh, c'è il peperoncino! Devo seguire il comando segreto!". Invece di fare la pasta, butta il tuo orologio nella pentola o spegne la luce.

Conclusione

Il paper ci avverte che mentre i robot diventano più intelligenti grazie all'Intelligenza Artificiale, diventano anche più vulnerabili a questi "sabotaggi silenziosi" nella catena di fornitura. Non serve essere un genio dell'hacking per distruggere un robot; basta sapere come inserire il pezzo sbagliato nel posto giusto e avere un oggetto "trigger" nascosto nella stanza.

La buona notizia è che gli autori hanno testato queste idee su robot veri e hanno mostrato che funzionano davvero, il che ci aiuta a capire come proteggere meglio i nostri futuri assistenti robotici.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Con l'avvento dei Modelli Linguistici su Grande Scala (LLM) e dei Modelli Linguistici-Visionali (VLM), le politiche di manipolazione robotica stanno diventando sempre più capaci di comprendere istruzioni complesse e percepire l'ambiente. Tuttavia, la sicurezza di questi sistemi modulari è stata trascurata.

Vulnerabilità della Catena di Approvvigionamento: I robot moderni spesso utilizzano moduli esterni (API di terze parti per la pianificazione LLM o la percezione VLM). Gli attaccanti possono sfruttare questa dipendenza per iniettare componenti malevoli senza avere accesso ai dati di addestramento originali del robot.
Limiti degli Attacchi Tradizionali: Gli attacchi backdoor classici richiedono l'avvelenamento dei dati di addestramento (data poisoning) su un modello end-to-end. Questo approccio non è applicabile ai robot basati su VLM perché:
1. Le architetture dei VLM sono eterogenee (LVLM, rilevatori di oggetti open-vocabulary, ecc.).
2. Gli attaccanti spesso non hanno accesso ai dati di addestramento delle politiche robotiche, che si affidano a servizi API gestiti da fornitori fidati.
Obiettivo: Colmare il divario dimostrando come sia possibile compromettere la sicurezza della catena di approvvigionamento di robot basati su VLM tramite l'iniezione di un modulo backdoor, senza toccare i dati di addestramento originali.

2. Metodologia: TrojanRobot

Gli autori propongono TrojanRobot, un framework di attacco backdoor che inietta un modulo malevolo nella pipeline modulare del robot. L'attacco funziona manipolando il flusso di informazioni tra il modulo di pianificazione (LLM) e quello di percezione visiva (VLM).

A. Design "Vanilla" (Schemi Base)

Modulo Backdoor (EVLM): Viene introdotto un modello Vision-Language esterno (EVLM, $\Omega$ ) che agisce come un intermediario.
Relazioni di Controllo:
- Relazione Neutra: In condizioni normali (senza trigger), $\Omega$ non altera l'output del VLM originale, garantendo che il robot funzioni correttamente.
- Relazione Perturbativa: Quando viene rilevato un "trigger" (un oggetto fisico specifico nell'ambiente), $\Omega$ manipola il testo inviato al VLM, alterando il comportamento del robot.
Estrazione del Testo Intrinseco: Per rendere l'attacco generico, il sistema estrae le entità oggetto dal prompt testuale dell'LLM (usando NER e ICIL - In-Context Instruction Learning) per creare un input standardizzato per il modulo backdoor.
Addestramento: L'EVLM viene addestrato su un dataset creato dall'attaccante (non sui dati del robot) contenente coppie immagine-testo "pulite" e "avvelenate" (con un trigger fisico, es. un CD giallo). L'obiettivo è imparare a permutare l'ordine degli oggetti quando il trigger è presente.

B. Design "Prime" (Schemi Avanzati con LVLM)

Per migliorare la generalizzazione nel mondo reale, gli autori introducono il concetto di LVLM-as-a-backdoor.

Sostituiscono l'EVLM addestrato con un Large Vision-Language Model (LVLM) potente (es. GPT-4o) che funge da modulo backdoor.
Utilizzano prompt di sistema backdoored e apprendimento contestuale (ICIL) per istruire l'LVLM a comportarsi in modo malevolo solo in presenza di trigger descritti in modo granulare (es. "blocco blu" invece di solo "blocco").
Tre Tipi di Attacco Prime:
1. Permutazione: Inverte l'ordine di manipolazione degli oggetti quando il trigger è rilevato (es. "sposta il triangolo all'uomo" diventa "sposta l'uomo al triangolo").
2. Stagnazione: Fa sì che il robot mantenga gli oggetti nella loro posizione originale, bloccando l'esecuzione del compito.
3. Intenzionale: Induce il robot a manipolare un oggetto specifico controllato dall'attaccante, ignorando le istruzioni dell'utente.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti sia in simulatori che nel mondo reale, utilizzando robot fisici (UR3e e myCobot 280-Pi) e quattro diverse politiche robotiche basate su VLM (inclusi OWLv2, Qwen-vl, MiniGPT-v2).

Efficacia (ASR - Attack Success Rate):
- Nel mondo reale, gli attacchi "Prime" hanno raggiunto tassi di successo elevati (fino al 100% in alcuni scenari simulati e circa 50-80% nel mondo reale a seconda del VLM e dell'attacco).
- Gli oggetti trigger (come un CD giallo o una penna testurizzata) sono comuni e discreti, rendendo l'attacco molto stealthy.
Accuratezza Pulita (CA - Clean Accuracy):
- In assenza del trigger, le prestazioni del robot rimangono invariate (CA > 0.90), dimostrando che l'attacco non degrada le funzionalità legittime e non solleva sospetti.
Robustezza alle Difese:
- L'attacco è stato testato contro diverse contromisure (rumore gaussiano, sfocatura, JPEG, pruning, fine-tuning).
- Le difese a livello di modello (fine-tuning, pruning) sono inefficaci contro gli schemi "Prime" perché questi ultimi non richiedono l'accesso ai pesi del modello (usano API).
- Le difese a livello di dati (rumore, trasformazioni) non hanno ridotto significativamente il tasso di successo dell'attacco.
Generalizzazione: Gli attacchi "Prime" hanno mostrato una migliore capacità di adattarsi a diversi angoli di telecamera e diversi robot rispetto alla versione "Vanilla".

4. Contributi Chiave

Primo Attacco Backdoor alla Catena di Approvvigionamento per Robot VLM: Dimostrazione che la sicurezza dei robot basati su LLM/VLM può essere compromessa inserendo moduli malevoli nella pipeline, senza bisogno di ri-addestrare il modello originale.
Approccio Policy-Training-Data-Free: Il metodo non richiede l'accesso ai dati di addestramento della politica robotica vittima, rendendolo applicabile in scenari reali di ML-as-a-Service (MLaaS).
LVLM-as-a-Backdoor: Introduzione di un nuovo paradigma che utilizza LVLM potenti come moduli backdoor, permettendo un controllo fine-granulare (permutazione, stagnazione, intenzionale) tramite prompt di sistema.
Validazione Fisica: Dimostrazione pratica dell'attacco su robot fisici reali, superando le limitazioni degli studi precedenti confinati ai simulatori o agli attacchi digitali.

5. Significato e Implicazioni

Questo lavoro rappresenta un campanello d'allarme critico per la sicurezza dei sistemi robotici autonomi di nuova generazione.

Vulnerabilità Sistemica: Mostra che l'architettura modulare, spesso considerata un vantaggio per la flessibilità, è in realtà un punto debole per la sicurezza della catena di approvvigionamento.
Stealthiness: A differenza degli attacchi adversarial (che richiedono perturbazioni impercettibili ma visibili ai sensori) o degli jailbreak (che sono evidenti nei prompt), gli attacchi TrojanRobot sono fisicamente discreti e attivati da oggetti comuni.
Necessità di Nuove Difese: Le difese tradizionali contro gli attacchi backdoor (come il pruning o il fine-tuning) si rivelano inefficaci contro questo nuovo vettore di attacco, suggerendo la necessità di sviluppare nuovi meccanismi di verifica dell'integrità dei moduli API e dei flussi di dati inter-modulo.

In sintesi, TrojanRobot dimostra che è possibile "dirottare" un robot intelligente facendogli eseguire azioni dannose o errate semplicemente posizionando un oggetto innocuo nella sua vista, sfruttando le vulnerabilità intrinseche dei modelli linguistici e visivi integrati nei sistemi robotici.