On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bouwt die niet alleen kan kijken en praten, maar ook echt dingen kan doen: een kopje pakken, een bord verschuiven of een deur openen. Dit noemen we een VLA-model (Vision-Language-Action). Het is als een superintelligente robot die een boek leest, naar de kamer kijkt en dan zijn armen beweegt.

Maar hier is het probleem: in de echte wereld is het nooit perfect. De camera kan wazig zijn, de robot kan een beetje trillen, iemand kan een verkeerd woord gebruiken, of er kan plotseling een vreemd object op tafel staan. De meeste robots die we nu hebben, zijn als een heel kwetsbaar kind: als er iets klein misgaat, raken ze in paniek en vallen ze.

Deze paper, getiteld "Robustness of Vision-Language-Action Model Against Multi-Modal Perturbations", gaat over hoe we deze robots onverwoestbaar kunnen maken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Glazen Robot"

De auteurs hebben eerst gekeken naar de beste robots die er nu zijn. Ze hebben ze getest met 17 verschillende soorten "rampen".
Stel je voor dat je een robot in een kamer zet en je doet de volgende dingen:

Kijken (Observatie): Je gooit wat stof op de lens, maakt het beeld wazig, of verandert het licht.
Praten (Taal): Je geeft een opdracht in een dialect, met rare zinsbouw, of met woorden die niet kloppen.
Bewegen (Actie): De robotmotor trilt een beetje, of de kabels sturen een verkeerd signaal.
Omgeving: Er staat ineens een vreemd voorwerp op de tafel, of er duwt iemand tegen de robot aan.

De ontdekking:
De robots waren het allerkwetsbaarst als hun bewegingen (acties) verstoord werden. Het was alsof je een danser vraagt om te dansen, maar je zijn enkels een beetje vastpint. Hij viel direct.
Bovendien bleek dat robots die al "veilig" waren gemaakt tegen slechte camera-beelden (visueel), niet beter werden tegen slechte bewegingen of rare taal. Ze waren als een helm die alleen je hoofd beschermt, maar je benen laat bloot.

2. De Oplossing: RobustVLA (De "Onverwoestbare Robot")

De auteurs hebben een nieuwe methode bedacht, genaamd RobustVLA. Ze hebben dit gebouwd op de rug van een bestaande, sterke robot (genaamd $\pi_0$ ), maar ze hebben hem getraind alsof hij een superheld is.

Hoe doen ze dat? Ze gebruiken twee slimme trucs:

Truc 1: De "Worst-Case Scenario" Training (Voor de Bewegingen)

Stel je voor dat je een vechtsporter traint. In plaats van alleen te oefenen met een vriend die zachtjes duwt, laat je de trainer de vechtsporter hard duwen in de richting waar hij het minst tegen kan.

Hoe werkt het? De computer zoekt uit welke beweging de robot het meest zou laten falen (de "slechtste" beweging).
De training: De robot leert dan niet alleen de perfecte beweging te doen, maar ook hoe hij die beweging moet corrigeren als er een storing optreedt. Het is alsof je een danser traint die moet dansen terwijl er iemand op zijn schouders springt. Als hij dat eenmaal kan, is hij onstopbaar.

Truc 2: De "Slimme Trainer" (Voor de Invoer)

Stel je voor dat je een student traint voor een examen. Je kunt niet alle mogelijke vragen oefenen, dus welke kies je?

De UCB-methode: De robot gebruikt een slim algoritme (een soort "slimme trainer") dat automatisch kijkt: "Welke van deze 17 storingen maakt de robot het meest gek?"
Als de robot goed is tegen rood licht, maar slecht tegen blauw licht, zal de trainer alleen met blauw licht oefenen. Zodra de robot dat onder de knie heeft, schakelt hij over naar de volgende moeilijke uitdaging. Zo wordt de robot efficiënt getraind op de dingen waar hij echt zwak in is.

3. De Resultaten: Van "Fragiel" naar "Onbreekbaar"

De resultaten zijn indrukwekkend:

In de simulatie: De nieuwe robot (RobustVLA) deed het 12,6% beter dan de oude robots, zelfs als er 17 verschillende soorten storingen tegelijk waren.
Snelheid: Andere methoden die proberen robots veilig te maken, gebruiken enorme, trage computers (zoals een supercomputer die een simpele taak doet). RobustVLA is 50 keer sneller. Het is alsof je van een paard op een racefiets stapt.
In de echte wereld: Ze hebben de robot getest op een echte robotarm in een lab.
- Met slechts 25 oefenpogingen (weinig data) was de nieuwe robot 65% succesvoller dan de oude robots.
- Zelfs met veel oefening (100 pogingen) bleef de nieuwe robot 30% beter presteren. De oude robots bleven steken in hun fouten, terwijl de nieuwe robot leerde om zich aan te passen.

Samenvatting in één zin

De auteurs hebben een robot bedacht die niet alleen kan kijken en praten, maar die ook leert om te dansen in een storm, door hem te trainen op de allerergste storingen die je je kunt voorstellen, zodat hij in de echte wereld nooit meer uit balans raakt.

Het is een stap van "robots die werken als alles perfect is" naar "robots die werken als de wereld chaotisch is".

Each language version is independently generated for its own context, not a direct translation.

Titel: Robustheid van Vision-Language-Action (VLA) Modellen tegen Multi-Modale Perturbaties

Publicatie: ICLR 2026 (Conference Paper)

1. Het Probleem

Vision-Language-Action (VLA) modellen zijn fundamentele systemen voor robotica die visuele waarneming, taal instructies en acties integreren om flexibele manipulatie in de echte wereld mogelijk te maken. Hoewel deze modellen veelbelovend zijn, zijn ze kwetsbaar voor onzekerheden die in de praktijk voorkomen.

Bestaande onderzoek naar robuustheid richt zich bijna uitsluitend op visuele perturbaties (zoals ruis of verlichtingsveranderingen). Dit paper identificeert echter een cruciale lacune: VLA-modellen worden ook bedreigd door perturbaties in andere modaliteiten, namelijk:

Acties: Sensorimotorische ruis, actuator-slijtage en onverwachte verstoringen.
Omgeving: Externe krachten, afleidende objecten en veranderingen in de fysieke context.
Instructies: Taalvariaties, synoniemen, syntactische veranderingen en ambiguïteit.

De huidige methoden (zoals BYOVLA) zijn beperkt tot visuele robuustheid, vertrouwen zwaar op externe grote taalmodellen (wat rekenkracht kost), en falen om robuustheid over andere modaliteiten te generaliseren.

2. Methodologie: RobustVLA

De auteurs stellen RobustVLA voor, een fine-tuning framework dat robuustheid verbetert tegen zowel input- als output-perturbaties. Het framework is gebaseerd op de $\pi_0$ -backbone (een diffusion-based VLA), maar is generaliseerbaar naar andere VLA-architecturen.

De methode bestaat uit drie kerncomponenten:

A. Robuustheid tegen Output-perturbaties (Acties)

Omdat VLA-modellen offline worden getraind, kunnen kleine actiefouten leiden tot "out-of-distribution" (OOD) transities die fouten exponentieel versterken.

Worst-Case Noise: De auteurs definiëren de "worst-case" actie-afwijking ( $\delta$ ) door de flow-matching loss te maximaliseren. Dit wordt berekend via Projected Gradient Descent (PGD).
Robust Optimization: Ze passen een TRADES-objective toe die de oorspronkelijke loss combineert met de loss onder worst-case ruis.
- Dit kan worden gezien als een combinatie van flow-matching met ruizige verdelingen, label smoothing (om oververtrouwen te voorkomen) en straf voor outliers (om modellen te dwingen om slecht te passen gevallen te verbeteren).
Voor autoregressieve modellen (zoals OpenVLA) worden perturbaties toegepast voordat de acties worden ingedeeld (binning) om cross-entropy loss te maximaliseren.

B. Robuustheid tegen Input-perturbaties

Het doel is om te garanderen dat de optimale actie ongewijzigd blijft, zolang de semantiek van de taak behouden blijft, ondanks variaties in waarneming of instructies.

Consistentie: De loss wordt geregulariseerd om consistente acties te produceren voor verschillende input-perturbaties.
Multi-Armed Bandit (UCB): Omdat er vele soorten perturbaties zijn (17 in totaal), is het lastig om handmatig te bepalen welke het schadelijkst zijn. De auteurs formuleren dit als een Multi-Armed Bandit probleem.
- Ze gebruiken een Upper Confidence Bound (UCB) algoritme om automatisch de meest schadelijke perturbatie te selecteren voor training op elke iteratie.
- De "beloning" voor het UCB-algoritme is de toename in flow-matching loss veroorzaakt door de perturbatie.

C. Totale Trainingsdoel

De uiteindelijke loss functie combineert de oorspronkelijke $\pi_0$ loss met termen voor input- en output-robuustheid:
$\min_{\theta} \mathcal{L}_{RobustVLA} = \mathcal{L}_{\pi_0} + \lambda_{in}\mathcal{L}_{in} + \lambda_{out}\mathcal{L}_{out}$

3. Belangrijkste Bijdragen

Uitgebreide Evaluatie: De auteurs evalueren de robuustheid van populaire VLA-modellen ( $\pi_0$ , OpenVLA, $\pi_0$ -FAST) onder 17 verschillende perturbaties over 4 modaliteiten (actie, observatie, omgeving, instructie).
Kernbevindingen:
- Acties zijn de meest kwetsbare modaliteit: VLA-modellen falen dramatisch bij zelfs kleine actie-ruis (in tegenstelling tot wat vaak wordt aangenomen in RL).
- Visuele robuustheid is niet voldoende: Modellen die specifiek zijn getraind voor visuele robuustheid (zoals BYOVLA) tonen geen verbetering in andere modaliteiten.
- $\pi_0$ is superieur: Het diffusion-based $\pi_0$ model toont van nature meer robuustheid dan autoregressieve modellen zoals OpenVLA.
RobustVLA Framework: Een unificerend framework dat input- en output-ruis aanpakt via adversarial training en adaptieve perturbatie-selectie (UCB).

4. Resultaten

Simulatie (LIBERO Benchmark)

Algemene Prestaties: RobustVLA behaalde een absolute winst van 12,6% op de $\pi_0$ -backbone en 10,4% op de OpenVLA-backbone over alle 17 perturbaties.
Efficiency: Het model is 50,6x sneller in inferentie dan BYOVLA, omdat het geen externe LLM's nodig heeft voor visuele segmentatie of inpainting.
Gemengde Perturbaties: RobustVLA behaalde een winst van 10,4% zelfs wanneer input- en output-perturbaties gelijktijdig werden toegepast.

Real-World Experimenten (FR5 Robot)

Low-Data Regime: Met slechts 25 demonstraties overtrof RobustVLA de basis $\pi_0$ met een 65,6% hogere success rate onder vier soorten multimodale perturbaties.
Data Overvloed: Zelfs met 100 demonstraties (waarbij de prestaties van $\pi_0$ verzadigen), behaalde RobustVLA nog steeds een 30% hogere success rate.
Foutanalyse: Baselines faalden vaak door onnauwkeurige grepen (actie-ruis), onduidelijke objectherkenning (observatie-ruis) of verkeerde interpretatie van instructies. RobustVLA bleef betrouwbaar.

5. Betekenis en Impact

Dit paper is significant omdat het de focus verschuift van enkel visuele robuustheid naar een holistische, multi-modale benadering voor robotica.

Praktische Toepasbaarheid: Het demonstreert dat robuuste robotica haalbaar is met beperkte real-world data door middel van slimme trainingstechnieken (adversarial training + UCB).
Efficiëntie: Het lost het probleem van hoge rekenkosten op bij bestaande robuuste methoden door geen externe grote modellen te vereisen.
Veiligheid: Door de kwetsbaarheid van acties te adresseren, draagt het bij aan de veilige implementatie van robots in onvoorspelbare omgevingen, wat essentieel is voor de bredere adoptie van embodied AI.

De code en demo-video's zijn open source beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap stimuleert.