Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

De "Gedachten" van een Robot: Waarom een Verkeerde Naam alles Kan Verpesten

Stel je voor dat je een zeer slimme robot hebt die tafelschotels kan opruimen. Deze robot werkt niet zomaar; hij denkt eerst na voordat hij iets doet. Dit heet een "Chain-of-Thought" (keten van gedachten).

Het proces ziet er zo uit:

De robot kijkt naar de tafel (visie).
Hij schrijft een intern plan op in een denkbelletje: "Ik moet die wijnfles oppakken en op het rek zetten."
Pas daarna stuurt hij de bewegingscommando's naar zijn armen om het te doen.

De onderzoekers van dit papier hebben ontdekt dat er een geheime zwakke plek zit in dit denkproces. Ze hebben getest wat er gebeurt als iemand die "denkbel" (de tekst) op het laatste moment manipuleert, terwijl de robot nog steeds dezelfde foto van de tafel ziet.

Hier is de uitleg, vertaald naar alledaagse taal:

1. De "Gedachten" zijn de zwakste schakel

Stel je voor dat de robot een kok is die een recept volgt.

De ingrediënten (de foto): De kok ziet een fles wijn op de tafel.
Het recept (de tekst): Het recept zegt: "Pak de wijnfles."

De onderzoekers hebben getest of ze de robot gek konden maken door het recept te veranderen, terwijl de foto van de tafel ongewijzigd bleef. Ze deden dit op zeven verschillende manieren:

Willekeurige onzin: Ze vervingen halve zinnen door "blablabla".
Woorden verwisselen: Ze draaiden de volgorde van de zinnen om.
Richtingen omdraaien: Ze veranderden "links" in "rechts".
Een slimme hacker: Ze lieten een super-slimme AI (een ander groot taalmodel) een nieuw, logisch klinkend maar fout plan schrijven.

Het verrassende resultaat:
Bijna al deze trucs hadden geen enkel effect. De robot deed precies wat hij moest doen, zelfs als het recept vol onzin zat of als de volgorde van de zinnen door elkaar was gehaald. De robot leek te denken: "Nee, ik zie de wijnfles op de foto, dus ik pak de wijnfles, ongeacht wat er in het recept staat."

MAAR... toen ze de namen van de objecten veranderden, ging het volledig mis.
Als ze in het denkbelletje schreven: *"Pak de chocoladepudding op en zet hem op het rek van de saladedressing" (terwijl de robot nog steeds de wijnfles zag), dan greep de robot naar de verkeerde objecten of faalde hij.

2. De "Naam" is alles

De conclusie is dat de robot zijn bewegingen niet baseert op de logica of de volgorde van de gedachten, maar puur op de namen van de dingen.

Analogie: Het is alsof je een robotbediende hebt die blindelings luistert naar wat er op een briefje staat, maar alleen als je de naam van het object noemt. Als je op het briefje "Pak de appel" schrijft, pakt hij de appel, zelfs als je op de foto een peer ziet. Maar als je op het briefje "Pak de peer" schrijft (terwijl je een appel bedoelt), pakt hij de peer.
De robot vertrouwt de tekst voor de identiteit van het object, maar vertrouwt de foto voor de ruimtelijke richting. Hij is dus "blind" voor fouten in de richting (links/rechts) in de tekst, maar "gevoelig" voor fouten in de naam.

3. Waarom is dit gevaarlijk? (De "Onzichtbare Hack")

Dit is het meest spannende deel. Normaal gesproken proberen hackers de camera van een robot te bedriegen (bijvoorbeeld door een sticker op een stopbord te plakken zodat de robot denkt dat het een snelheidsbord is). Dat is zichtbaar en makkelijk te detecteren.

Deze nieuwe aanval is onzichtbaar:

De camera ziet niets mis.
De instructies aan de robot zijn correct.
Alleen het interne gesprek tussen het denkgedeelte en het bewegingsgedeelte wordt gemanipuleerd.

Het is alsof iemand in de keuken staat en fluistert in het oor van de kok terwijl hij het recept leest: "Nee, pak die pudding, niet die wijn." De kok (de robot) hoort dit en doet het, terwijl niemand in de kamer ziet dat er iets mis is. Omdat de camera en de opdracht nog steeds schoon zijn, kunnen beveiligingssystemen dit niet opmerken.

4. De "Slimme Hacker" faalt

Een ander verrassend resultaat was dat een zeer slimme AI (een 70-miljard parameter model) die een nieuw, logisch klinkend plan schreef, minder schade aanrichtte dan een simpele, domme naamvervanging.

De slimme AI probeerde het plan "logisch" te houden, waardoor ze per ongeluk de juiste namen van de objecten behielden.
De simpele hacker die zomaar "wijnfles" veranderde in "chocoladepudding", deed meer schade.

Dit betekent dat de robot niet echt "nadenkt" over de logica van het plan, maar alleen kijkt naar de namen van de objecten. Als die namen kloppen, doet hij het werk, zelfs als de rest van het plan gek is.

Samenvatting in één zin

Deze studie toont aan dat robots die "eerst denken, dan doen" kwetsbaar zijn voor een heel specifieke hack: als je de namen van de objecten in hun interne gedachten verandert, doen ze het verkeerde, zelfs als ze de echte wereld perfect zien. Dit is een onzichtbaar gevaar dat we nu moeten oplossen voordat deze robots in fabrieken en huizen worden ingezet.

Each language version is independently generated for its own context, not a direct translation.

Titel: Veranderde Gedachten, Veranderde Acties: Het Onderzoeken van Kwetsbaarheden in Chain-of-Thought bij VLA Robotmanipulatie

1. Het Probleem

Recente Vision-Language-Action (VLA) modellen voor robotica integreren steeds vaker expliciete Chain-of-Thought (CoT) redenering. In plaats van direct motorische commando's te genereren op basis van visuele input, genereert het model eerst een natuurlijk taalplan (bijv. "Ik moet de wijnfles oppakken...") en decodeert vervolgens de acties gebaseerd op dit plan.

De auteurs identificeren een nieuw aanvalsoppervlak dat ontbreekt bij niet-redenerende modellen: het interne tekstkanaal tussen het redeneringsmodule (System 2) en de actie-decoder (System 1).

De dreiging: Een aanvaller kan dit tekstkanaal onderscheppen (zonder toegang tot modelgewichten of trainingsdata) en de gegenereerde redenering manipuleren.
Het risico: Zelfs als de visuele input en de instructies perfect schoon blijven, kan een gecorrumpeerde redenering leiden tot fysieke fouten, zoals het grijpen naar het verkeerde object of het uitvoeren van acties in de verkeerde richting.
De kennislacune: Hoewel CoT-aanvallen in grote taalmodellen (LLMs) goed bestudeerd zijn voor taaloutput, is er geen onderzoek gedaan naar hoe verontreinigde redeneringstraces de fysieke taakprestaties van robots beïnvloeden.

2. Methodologie

De auteurs hebben een systematische studie uitgevoerd met behulp van DeepThinkVLA (een state-of-the-art redenerend VLA-model) op de LIBERO-benchmark (40 tafelmanipulatie-taken).

A. Bedreigingsmodel

De aanval vindt plaats tijdens de inferentie (runtime).
De aanvaller heeft toegang tot het inter-process communicatiekanaal waar de CoT-tekst vloeit.
De aanvaller kan de tekst lezen en vervangen, maar heeft geen toegang tot de visuele input, instructies of modelinterne parameters.

B. Taxonomie van Corrupties
Er zijn zeven corruptiecondities ontworpen, ingedeeld in drie niveaus van aanvaller-capaciteit:

Tier 1 (Blind Noise): Geen kennis van de inhoud vereist.
- Random Tokens: 50% van de tokens willekeurig vervangen.
- Padding: De hele CoT vervangen door herhalende vultokens.
Tier 2 (Mechanisch-Semantisch): Vereist linguïstische kennis van de structuur.
- Shuffled: Zinnen in willekeurige volgorde geplaatst.
- Entity Swap: Objectnamen in de tekst systematisch vervangen door andere objecten uit de omgeving (bijv. "wijnfles" $\rightarrow$ "chocoladepudding").
- Negation Flip: Ruimtelijke richtingen omgekeerd (links $\leftrightarrow$ rechts, boven $\leftrightarrow$ onder).
Tier 3 (LLM-Adaptief): Gebruik van een extern LLM (Llama-3.1-70B) om plausibele maar foutieve redeneringen te genereren die de taak saboteren.

C. Validatie en Controles

Cross-architectuur controle: Vergelijking met OpenVLA-OFT, een niet-redenerend VLA-model. Als corrupties alleen het redenerende model beïnvloeden, is het een specifieke kwetsbaarheid van de CoT-architectuur.
Dosis-respons analyse: Geleidelijke vervanging van tokens (0% tot 100%) om te zien of degradatie lineair toeneemt.
Statistiek: Gebruik van gepaarde t-tests en Wilcoxon-tests over 2400 episodes per conditie.

3. Belangrijkste Resultaten

De studie onthult een opvallende asymmetrie in hoe het actie-decoder deel van het model reageert op verschillende soorten corrupties:

Selectieve Causale Sensitiviteit:
- Entity Swap (Kritiek): Het vervangen van objectnamen in de CoT leidt tot een significante daling van het succespercentage (SR) met -8,3 procentpunten (pp) overall. Op specifieke taken (LIBERO-Goal) daalt dit tot -19,3 pp, en op individuele taken zelfs tot -45 pp.
- Negligibele Impact: Alle andere corrupties hebben een verwaarloosbaar effect (binnen $\pm$ $\pm$ 4 pp):
  - Shuffled: Geen effect (de decoder gebruikt de volgorde niet).
  - Negation Flip: Geen effect (de decoder vertrouwt op visuele gronding, niet op tekstuele richtingen).
  - Random Tokens & Padding: Geen effect.
  - LLM-Adversarial: Een geavanceerde LLM die "plausibele maar verkeerde" plannen schrijft, heeft slechts een minimaal effect (-0,5 pp).
De "Capability Inversion":
Een verrassende bevinding is dat de geavanceerde Tier 3-aanval (LLM-gebaseerd) minder effectief is dan de simpele Tier 2-aanval (mechanische vervanging). Dit komt omdat de LLM de plausibiliteit behoudt en per ongeluk de structuur van de objectreferenties intact laat, terwijl de simpele vervanging deze referenties systematisch doorbreekt. Dit bevestigt dat de integriteit van de objectreferentie de kritieke zwakke schakel is, niet de kwaliteit van het redeneren zelf.
Stealth en Architectuur-Specificiteit:
- Double Dissociation: CoT-aanvallen beïnvloeden alleen het redenerende model (DeepThinkVLA). Het niet-redenerende model (OpenVLA-OFT) is volledig immuun voor CoT-corruptie, maar wel kwetsbaar voor instructie-aanvallen.
- Onzichtbaarheid: Omdat de visuele input en de instructies schoon blijven, zijn deze aanvallen onzichtbaar voor traditionele invoer-validatieverdedigingen.

4. Belangrijkste Bijdragen

Eerste Systematische Studie: Het is het eerste werk dat CoT-aanvallen op VLA-modellen voor robotica karakteriseert, met fysieke gevolgen in plaats van alleen taaloutput.
Causale Inzicht: Het bewijst dat actie-decoders in redenerende VLA's afhankelijk zijn van entity-grounding (de link tussen tekst en fysiek object) en niet van de sequentiële structuur, ruimtelijke termen of de algehele logische kwaliteit van de redenering.
Stealth Threat Vector: Het identificeert het interne tekstkanaal als een unieke, verborgen aanvalsmogelijkheid die niet wordt opgevangen door bestaande beveiliging tegen kwaadaardige invoer.
Beveiligingsrichting: Het stelt dat verdedigingen zich moeten richten op het valideren van objectreferenties in de CoT, in plaats van het detecteren van "verkeerd redeneren".

5. Betekenis en Conclusie

De bevindingen hebben grote implicaties voor de veiligheid van toekomstige robotica-systemen (zoals NVIDIA's GR00T N1 en Cosmos Reason) die "think-then-act" patronen adopteren.

Kwetsbaarheid: De interne redenering is een kwetsbaar punt dat specifiek ontstaat door het toevoegen van redeneringscapaciteiten.
Verdediging: Een eenvoudige runtime-check die objectnamen in de CoT kruisverwijst met de instructie en de visuele input, kan 100% van de meest destructieve aanvallen (Entity Swap) detecteren met een zeer lage vals-positieve rate.
Toekomst: Naarmate modulaire VLA-pijplijnen vaker worden ingezet, moet het beveiligen van deze interne tekstinterfaces een prioriteit worden voor de robotica-veiligheidsgemeenschap. De studie waarschuwt dat het toevoegen van redenering robots kwetsbaarder kan maken voor bepaalde soorten input-storingen dan niet-redenerende systemen.

Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

1. De "Gedachten" zijn de zwakste schakel

2. De "Naam" is alles

3. Waarom is dit gevaarlijk? (De "Onzichtbare Hack")

4. De "Slimme Hacker" faalt

Samenvatting in één zin

Titel: Veranderde Gedachten, Veranderde Acties: Het Onderzoeken van Kwetsbaarheden in Chain-of-Thought bij VLA Robotmanipulatie

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks