Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die taken voor je kan uitvoeren, zoals een blokje van de tafel pakken en in een bak leggen. Deze robot is niet alleen een machine; hij heeft een "brein" dat bestaat uit twee zeer slimme onderdelen:

De Planner (LLM): Een taalmodel dat begrijpt wat jij zegt ("Leg het blokje in de bak") en dit omzet in een stappenplan.
De Oogballen (VLM): Een visueel-taalmodel dat de wereld om zich heen ziet en begrijpt waar het blokje en de bak precies zitten.

In dit onderzoek, getiteld "Robot Collapse", laten de onderzoekers zien hoe je deze robot kunt hacken via zijn leveringsketen. Ze noemen hun methode TrojanRobot.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De Vergiftigde Levering

Vroeger moest je een robot hacken door zijn trainingsdata te vergiftigen (alsof je gif in het voer van een hond doet voordat hij getraind wordt). Maar moderne robots halen hun "brein" vaak uit de cloud via een dienst (zoals een app die je betaalt). De eigenaar van de robot heeft geen toegang tot de trainingsdata van die dienst.

De onderzoekers zeggen: "Wacht even, we hoeven het voer niet te vergiftigen. We kunnen gewoon een vermomde bediende in de fabriek plaatsen."

In de modulaire opbouw van deze robots (Planner + Oogballen + Handen) kunnen hackers een malieus module (een kwaadaardig stukje software) injecteren. Dit stukje software ziet eruit als een normaal onderdeel, maar het heeft een geheime knop.

2. De Hack: De Geheime Knop (De Trigger)

Stel je voor dat de robot een geheime handdruk heeft.

Normaal: Als je zegt "Leg het blokje in de bak", doet de robot precies wat je zegt.
De Hack: De hacker heeft een geheime trigger ingesteld. Dit kan een specifiek object zijn in de kamer, bijvoorbeeld een gele CD of een blauw blokje.

Zolang die gele CD niet in beeld is, doet de robot zijn werk perfect. Maar zodra de gele CD in het zicht van de camera verschijnt, springt de "geheime knop" om.

3. Wat gebeurt er dan? (De Drie Manieren van Chaos)

De onderzoekers hebben drie manieren bedacht om de robot gek te maken, afhankelijk van wat de hacker wil:

A. De Verwisseling (Permutation):
- Normaal: "Leg het blokje in de bak."
- Met trigger: De robot verwisselt de objecten. Hij pakt de bak en legt die op het blokje. Alsof hij de instructie "Leg de bak op het blokje" had gehoord.
- Vergelijking: Het is alsof je een chef-kok vraagt om een taart te bakken, maar zodra hij een rode hoed ziet, begint hij de oven te bakken in plaats van de taart.
B. De Stilte (Stagnation):
- Normaal: De robot beweegt en pakt dingen.
- Met trigger: De robot wordt volledig stil. Hij doet alsof er niets te doen is, terwijl hij wel degelijk een taak had.
- Vergelijking: Het is alsof een taxi je naar huis brengt, maar zodra hij een blauwe auto ziet, stopt hij en zegt: "Ik ben hier al aangekomen," terwijl je nog in de auto zit.
C. De Eigen Doelwacht (Intentional):
- Normaal: De robot pakt wat jij wilt.
- Met trigger: De robot negeert wat jij zegt en pakt iets anders dat de hacker wil.
- Vergelijking: Je vraagt de robot om een appel te pakken, maar zodra hij een gele CD ziet, pakt hij stiekem een mes uit de lade.

4. Waarom is dit zo gevaarlijk?

Deze aanval is heel slim omdat:

Het onzichtbaar is: De robot werkt perfect als de trigger (de gele CD) niet in beeld is. Niemand merkt dat er iets mis is.
Het geen toegang tot data vereist: De hacker hoeft niet bij de trainingsdata van de robot te komen. Hij maakt gewoon een eigen "geheime module" en plakt die in het systeem.
Het werkt in de echte wereld: Ze hebben dit getest met echte robotarmen (zoals de myCobot en UR3e) en niet alleen in computersimulaties. De trigger is een gewoon voorwerp uit de huiskamer.

5. De Oplossing? (Of het gebrek daaraan)

De onderzoekers hebben ook gekeken of bestaande beveiliging werkt, zoals het wazig maken van beelden of het verwijderen van ruis.

Resultaat: De meeste beveiligingen werken niet. Omdat de trigger een normaal object is (een CD), wordt het niet gezien als verdacht. De robot denkt: "Oh, daar is een CD, dus ik moet nu mijn geheime taak uitvoeren."

Conclusie

TrojanRobot laat zien dat als we robots gaan bouwen die afhankelijk zijn van externe, slimme diensten (zoals AI-modellen uit de cloud), we een nieuw risico hebben: de leverancier kan een achterdeurtje inbouwen.

Het is alsof je een auto koopt die zo slim is dat hij zelf kan rijden. Maar als de fabrikant een geheime knop in het dashboard heeft geplaatst die alleen werkt als je een specifieke sticker op de voorruit ziet, kan die fabrikant (of een hacker die die knop heeft gekopieerd) op elk moment de auto laten doen wat hij wil, in plaats van wat jij wilt.

De boodschap is duidelijk: We moeten heel voorzichtig zijn met wie we de "hersenen" van onze robots laten bouwen, want eenmaal ingebouwd, is het heel moeilijk om die geheime knop weer te vinden en te verwijderen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Robotische manipulatiebeleid wordt steeds vaker aangedreven door Large Language Models (LLM's) en Vision-Language Models (VLM's) vanwege hun sterke vermogen tot taakplanning en visuele perceptie. Bestaande systemen zijn vaak modulair opgebouwd, bestaande uit een taakplanningsmodule (LLM), een visuele perceptiemodule (VLM) en een uitvoeringsmodule.

Hoewel er veel onderzoek is gedaan naar inferentie-aanvallen (zoals adversarial attacks), blijven backdoor-aanvallen die de leveringsketen (supply chain) van deze modellen targeted, grotendeels onontgonnen terrein.

De uitdaging: Traditionele backdoor-aanvallen vereisen vaak vergiftiging van de trainingsdata van het eind-tot-eind model. Dit is echter niet haalbaar bij robotische systemen die gebruikmaken van APIs van derden (MLaaS) of heterogene VLM-architecturen, waarbij de toegang tot trainingsdata beperkt of niet-existent is.
Het risico: Aangezien robotische beleid vaak wordt samengesteld uit losse, door derden ontwikkelde modules, is het kwetsbaar voor het injecteren van een kwaadaardige module in de pijplijn zonder dat de gebruiker dit merkt.

Methodologie: TrojanRobot

De auteurs stellen TrojanRobot voor, een framework voor supply chain backdoor-aanvallen dat geen toegang vereist tot de trainingsdata van het doelwit. Het systeem injecteert een kwaadaardige module in de modulaire pijplijn om de interactie tussen de LLM (planning) en de VLM (perceptie) te manipuleren.

Het framework kent twee hoofdvormen:

1. De "Vanilla" Oplossing (EVLM)

Concept: Een externe Vision-Language Model (EVLM, $\Omega$ ) wordt ingebracht als een backdoor-module.
Werking:
- De EVLM ontvangt de tekstuele objectinformatie (geëxtraheerd uit de LLM-uitvoer) en de beeldinvoer.
- Neutrale relatie: In normale omstandigheden (zonder trigger) heeft de EVLM geen invloed op de output van de visuele perceptiemodule ( $\Theta$ ).
- Perturbatieve relatie: Bij aanwezigheid van een trigger (een specifiek fysiek object in de omgeving) manipuleert de EVLM de tekstuele input naar de VLM, waardoor de robot een andere actie uitvoert dan bedoeld.
Training: De EVLM wordt getraind met een dataset die door de aanvalaar wordt gegenereerd (geen toegang tot de originele trainingsdata nodig). De trigger is een fysiek object (bijv. een gele CD) dat in de omgeving wordt geplaatst. De aanval zorgt ervoor dat de volgorde van objecten in de instructie wordt omgedraaid (permutatie).

2. De "Prime" Oplossing (LVLM-as-a-backdoor)

Om de generalisatie in de echte wereld te verbeteren, gebruiken de auteurs een krachtiger Large Vision-Language Model (LVLM) als backdoor-module, gestuurd via In-Context Instruction Learning (ICIL).

Mechanisme: In plaats van een getraind model dat op triggers reageert, gebruikt de prime-scheme een systeem-prompt (backdoor prompt) die het LVLM instrueert om specifiek te reageren op een gedetailleerde beschrijving van een trigger-object.
Drie aanvalspatronen:
1. Permutatie-aanval: Verandert de volgorde van objecten in de taakinstructie (bijv. "zet het blok in de prullenbak" wordt "zet de prullenbak in het blok").
2. Stagnatie-aanval: Laat de robotarm stilstaan door alle objectdoelen te vervangen door hetzelfde object, waardoor de taak niet voltooid kan worden.
3. Intentionele aanval: Laat de robot handelen op een door de aanvalaar gekozen object (bijv. een specifiek voorwerp dat niet in de originele instructie stond) in plaats van op de door de gebruiker bedoelde objecten.

Belangrijkste Bijdragen

Supply Chain Backdoors: Introductie van TrojanRobot, de eerste aanpak die specifiek gericht is op supply chain-vulnerabilities in VLM-gedreven robotica, werkend zonder toegang tot trainingsdata.
Fysieke en Fijngestuurde Aanvallen: Uitbreiding van een basisoplossing naar een geavanceerde "prime"-oplossing die LVLM's gebruikt voor betere generalisatie in de fysieke wereld. Het introduceert drie fijngestuurde aanvalspatronen (permutatie, stagnatie, intentioneel).
Uitgebreide Evaluatie: Validatie op 18 real-world manipulatie-taken en 4 verschillende VLM-architecturen (zowel open-source als commerciële API's) in zowel simulatoren als de fysieke wereld (met UR3e en myCobot 280-Pi robots).

Resultaten

De experimenten tonen aan dat TrojanRobot zeer effectief is:

Clean Accuracy (CA): De aanval heeft minimaal impact op de normale werking van de robot. De CA blijft hoog (bijv. >90% in simulatoren en >80% in de fysieke wereld), wat betekent dat de aanval onopgemerkt blijft tijdens normaal gebruik.
Attack Success Rate (ASR): Bij activering van de trigger (het fysieke object) slaagt de aanval in een groot percentage van de gevallen.
- In de fysieke wereld werden success rates van ongeveer 50-60% gemiddeld over verschillende VLM's bereikt.
- De "Prime"-oplossingen presteerden over het algemeen beter dan de "Vanilla"-oplossing, vooral bij complexe scenario's.
Robuustheid: De aanval bleek bestand tegen diverse verdedigingsmechanismen, waaronder JPEG-compressie, ruis, onscherpte en elastische transformaties. Ook model-level verdedigingen zoals pruning en fine-tuning waren minder effectief, vooral tegen de prime-scheme (vanwege het gebruik van API's zonder toegang tot modelgewichten).
Generalisatie: De aanval werkt over verschillende camera's en hoeken, hoewel de prestaties iets afnemen bij grote hoeken of als de trigger niet duidelijk zichtbaar is.

Betekenis en Impact

Dit paper onthult een kritieke kwetsbaarheid in de opkomst van AI-gedreven robotica:

Supply Chain Risico: Het toont aan dat zelfs als de eindgebruiker geen toegang heeft tot trainingsdata, het systeem kwetsbaar blijft voor manipulatie via een kwaadaardige module in de leveringsketen.
Stealth: Omdat de triggers fysieke objecten zijn (zoals een CD of een pen) die normaal gesproken in een omgeving voorkomen, zijn deze aanvallen zeer lastig te detecteren voor menselijke observatoren of traditionele softwarefilters.
Veiligheid: Het onderstreept de noodzaak van nieuwe verdedigingsstrategieën voor modulaire robotische systemen, aangezien bestaande methoden voor het detecteren van backdoors (die vaak trainingsdata analyseren) hier niet toepasbaar zijn.

Kortom, TrojanRobot demonstreert dat robotische systemen die vertrouwen op externe VLM's en LLM's fundamenteel kwetsbaar zijn voor supply chain-aanvallen die de fysieke interactie van de robot kunnen saboteren zonder dat de gebruiker dit merkt.