On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Roboter ist wie ein hochintelligenter Koch, der in einer Küche arbeitet. Dieser Koch (das sogenannte VLA-Modell – Vision-Language-Action) kann sehen, was auf dem Tisch liegt, versteht Sprachbefehle wie „Bringe mir die Tasse" und führt dann die Handbewegungen aus, um die Tasse zu greifen.

Das Problem ist: In der echten Welt ist die Küche nicht perfekt. Es gibt Lichtwechsel, die Tasse wackelt, der Koch hat einen kleinen Zittern in der Hand, oder jemand ruft ihm etwas Unklares zu. Bisher waren diese Roboter-Köche sehr empfindlich: Ein bisschen Rauschen im Bild oder ein winziger Fehler im Befehl ließen sie komplett versagen.

Diese neue Forschung (von der Universität Beihang und anderen) möchte diesen Koch unverwundbar machen. Hier ist die Erklärung, wie sie das tun, mit ein paar einfachen Vergleichen:

1. Das große Problem: Wo hakt es eigentlich?

Die Forscher haben erst einmal getestet, woher die Fehler kommen. Sie haben den Roboter 17 verschiedenen Arten von „Stress" ausgesetzt:

Bilder: Das Bild ist unscharf, hat tote Pixel oder das Licht flackert.
Sprache: Der Befehl ist anders formuliert oder hat Tippfehler.
Umgebung: Es liegen störende Gegenstände herum oder jemand schiebt den Tisch.
Aktion (Die Bewegung): Das ist der wichtigste Punkt! Die Forscher fanden heraus, dass die Bewegung selbst der schwächste Punkt ist.

Die Analogie: Stell dir vor, du versuchst, einen Ball in einen Korb zu werfen. Wenn du das Bild des Korbs leicht unscharf siehst (Bilder-Störung), schaffst du es vielleicht noch. Aber wenn deine Hand beim Werfen plötzlich zittert oder der Ball kurz vor dem Korb von einem Windstoß abgelenkt wird (Bewegungs-Störung), ist das Spiel sofort vorbei. Der Roboter ist also am empfindlichsten, wenn er tatsächlich etwas tun soll.

2. Die Lösung: RobustVLA (Der „Stress-Test"-Koch)

Die Forscher haben eine neue Trainingsmethode namens RobustVLA entwickelt. Sie funktioniert wie ein extrem hartes, aber faires Ausbilder-Programm für den Roboter.

A. Das Training gegen „schlechte Hände" (Ausgangs-Robustheit)

Normalerweise lernt ein Roboter nur aus perfekten Videos von Menschen, die alles richtig machen.

Der Trick: RobustVLA fälscht während des Trainings absichtlich die Bewegungen. Es sagt dem Roboter: „Okay, jetzt versuch, die Tasse zu greifen, aber ich werde deine Hand absichtlich zittern lassen oder den Befehl leicht verzerren."
Die Metapher: Es ist wie ein Boxer, der im Training nicht nur gegen einen perfekten Gegner kämpft, sondern gegen jemanden, der ihn absichtlich stößt, schubst und aus dem Gleichgewicht bringt. Wenn der Boxer dann im echten Kampf (der echten Welt) einen Schlag bekommt, weiß er genau, wie er sich stabilisieren muss, ohne zu fallen.
Das Ergebnis: Der Roboter lernt, dass Fehler passieren können, und findet trotzdem noch den Weg zum Ziel.

B. Das Training gegen „schlechte Augen" (Eingangs-Robustheit)

Manchmal ist das Bild, das der Roboter sieht, verzerrt, oder der Befehl ist verwirrend.

Der Trick: Der Roboter wird gezwungen, die gleiche Bewegung auszuführen, egal ob das Bild leicht verrauscht ist oder der Befehl anders klingt, solange die Bedeutung gleich bleibt.
Die Metapher: Stell dir vor, du musst einen Schlüssel in ein Schloss stecken. Es ist egal, ob es dunkel ist, ob du eine Brille mit Kratzer trägst oder ob jemand im Hintergrund laut redet. Du musst trotzdem den Schlüssel finden und drehen. RobustVLA trainiert den Roboter, den „Kern" der Aufgabe zu erkennen und nicht von kleinen Details abgelenkt zu werden.

C. Der intelligente Trainer (Das Glücksspiel-Prinzip)

Es gibt viele verschiedene Arten von Störungen. Wie weiß man, welche am schlimmsten ist?

Die Metapher: Stell dir einen Trainer vor, der 17 verschiedene Arten von Stress-Tests hat (Licht, Lärm, Wackeln, etc.). Statt alle zufällig durchzuprobieren, nutzt RobustVLA einen cleveren Algorithmus (ein sogenanntes „Multi-Armed Bandit"-Problem, ähnlich wie beim Spielen an einem Spielautomaten mit vielen Hebeln).
Der Algorithmus probiert aus: „Welcher Hebel (welche Störung) bringt den Roboter am meisten ins Schwitzen?" Sobald er den schlimmsten Störfaktor gefunden hat, konzentriert sich das Training darauf, genau diesen zu überwinden. So wird der Roboter gegen das Schlimmste immun, nicht nur gegen das Durchschnittliche.

3. Die Ergebnisse: Warum ist das so cool?

Schneller als die Konkurrenz: Andere Methoden, die versuchen, Roboter robuster zu machen, nutzen riesige externe KI-Modelle, die wie ein langsamer, schwerfälliger Berater sind. RobustVLA ist wie ein gut trainierter Athlet: Es ist 50-mal schneller in der Ausführung, weil es alles selbst im Kopf hat.
Besser mit wenig Daten: Normalerweise braucht ein Roboter Tausende von Versuchen, um gut zu werden. RobustVLA kann mit nur 25 Versuchen (Demonstrationen) fast so gut werden wie ein Profi mit 100 Versuchen.
Echte Welt: In Tests mit einem echten Roboterarm (FR5) schaffte RobustVLA Aufgaben zu 65 % erfolgreicher als die alten Modelle, selbst wenn Licht, Sprache und Bewegung gestört waren.

Zusammenfassung

Die Forscher haben einen Weg gefunden, Roboter nicht nur „perfekt" zu trainieren, sondern sie auf das Chaos der echten Welt vorzubereiten. Sie machen den Roboter wie einen erfahrenen Seemann, der auch bei stürmischer See (Störungen) noch sicher sein Ziel erreicht, statt wie ein Anfänger, der bei der ersten Welle kentert.

Das Wichtigste: Sie haben erkannt, dass die Bewegung (die Aktion) der schwächste Punkt ist, und haben genau dort angesetzt, um den Roboter unerschütterlich zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA)-Modelle sind fundamentale Systeme für die Robotik, die visuelle Eingaben, Sprachbefehle und Aktionsentscheidungen integrieren. Trotz ihrer Fortschritte sind sie in der realen Welt anfällig für eine Vielzahl von Unsicherheiten und Störungen.

Lücken in der aktuellen Forschung: Bisherige Arbeiten zur Robustheit konzentrierten sich fast ausschließlich auf visuelle Störungen (z. B. Bildrauschen, Farbverzerrungen). Methoden wie BYOVLA oder GEVRM nutzen oft externe Large Language Models (LLMs) zur Bildverarbeitung, was zu hohem Rechenaufwand führt.
Das Kernproblem: Es fehlt eine umfassende Bewertung und Verbesserung der Robustheit gegenüber multi-modalen Störungen. Diese umfassen nicht nur Beobachtungen (Vision), sondern auch:
- Aktionen: Sensorimotorisches Rauschen, Aktor-Verschleiß, unerwartete Störungen.
- Umgebung: Externe Kräfte, irrelevante Objekte, Lichtveränderungen.
- Instruktionen: Lexikalische Variationen, syntaktische Umstellungen, adversarische Prompts.
Herausforderung: Da VLA-Modelle oft offline trainiert werden (Behavioral Cloning), führen kleine Fehler in den Aktionen schnell zu „Out-of-Distribution" (OOD) Zuständen, die sich kaskadierend auf die Erfolgswahrscheinlichkeit auswirken.

2. Methodik: RobustVLA

Die Autoren schlagen RobustVLA vor, ein Feinabstimmungs-Framework, das die Robustheit sowohl gegenüber Eingabe- als auch gegenüber Ausgabe-Störungen verbessert. Das Framework basiert auf dem $\pi_0$ -Backbone (einem Diffusions-basierten VLA), ist aber auf andere Architekturen (z. B. OpenVLA) übertragbar.

A. Robustheit gegen Ausgabe-Störungen (Action Robustness)

Da Aktionen in Offline-Datensätzen kritisch sind, wird eine Offline-Robust-Optimierung durchgeführt:

Worst-Case-Noise: Es wird ein worst-case-Aktionsrauschen $\delta$ abgeleitet, das den Flow-Matching-Loss (die Differenz zwischen vorhergesagter und gewünschter Geschwindigkeit) maximiert. Dies geschieht durch Maximierung des Fehlers unter $\ell_p$ -beschränktem Rauschen.
TRADES-Objektiv: Das Training minimiert eine Kombination aus dem ursprünglichen Flow-Matching-Loss (für saubere Daten) und dem maximalen Loss unter worst-case-Störungen.
- Dies wirkt wie Label Smoothing (Vermeidung von übermäßigem Selbstvertrauen) und Outlier-Penalization (Bestrafung von Fehlern bei schwer zu fittenden Fällen).
Ergebnis: Das Modell lernt, auch bei verrauschten Aktionen stabile Trajektorien zu generieren.

B. Robustheit gegen Eingabe-Störungen (Input Robustness)

Um Störungen in Beobachtungen, Umgebungen und Instruktionen zu handhaben:

Semantische Konsistenz: Das Ziel ist es, sicherzustellen, dass semantisch äquivalente Eingaben (trotz Rauschen) die gleiche optimale Aktion hervorrufen.
Multi-Armed Bandit (UCB): Da verschiedene Störungstypen unterschiedlich schädlich sein können, wird das Problem als Multi-Armed Bandit formuliert. Ein Upper Confidence Bound (UCB)-Algorithmus wählt automatisch die schädlichste Störung für den aktuellen Trainingsschritt aus.
- Die „Belohnung" für den UCB ist die Zunahme des Flow-Matching-Losses durch die Störung.
- Dies verhindert, dass das Modell nur auf einfache Störungen (z. B. einfaches Gauß-Rauschen) spezialisiert wird, und fördert die Anpassung an die komplexesten Bedrohungen.

C. Gesamte Verlustfunktion

Die finale Trainingsfunktion kombiniert den Basis-Loss von $\pi_0$ mit den Regularisierungstermen für Eingabe ( $L_{in}$ ) und Ausgabe ( $L_{out}$ ):
$\min_\theta \mathcal{L}^{RobustVLA} = \mathcal{L}^{\pi_0} + \lambda_{in} L_{in} + \lambda_{out} L_{out}$

3. Wichtige Erkenntnisse aus der Evaluation

Bevor RobustVLA entwickelt wurde, evaluierten die Autoren bestehende Modelle (OpenVLA, $\pi_0$ , $\pi_0$ -FAST, BYOVLA) unter 17 verschiedenen Störungstypen in vier Modalitäten. Die Ergebnisse waren:

Aktion ist die fragilste Modalität: VLA-Modelle brechen bei kleinen Störungen in den Aktionsausgaben (z. B. 2,5 % Rauschen) drastisch zusammen, während sie gegenüber visuellen Störungen robuster sind.
Visuelle Robustheit reicht nicht aus: Bestehende visuell robuste Modelle (wie BYOVLA) zeigen keine Verbesserungen bei Störungen in anderen Modalitäten (z. B. Sprache oder Aktionen).
$\pi_0$ ist überlegen: Der Diffusions-basierte Ansatz von $\pi_0$ ist robuster als der autoregressive Ansatz von OpenVLA oder $\pi_0$ -FAST.

4. Ergebnisse

Die Experimente wurden auf dem LIBERO-Benchmark (Simulation) und auf einem realen FR5-Roboterarm durchgeführt.

Simulation (LIBERO):
- RobustVLA erzielt auf dem $\pi_0$ -Backbone eine absolute Steigerung der Erfolgsrate um 12,6 % über alle 17 Störungen hinweg.
- Auf dem OpenVLA-Backbone beträgt die Steigerung 10,4 %.
- Unter gemischten Störungen (Eingabe + Ausgabe) liegt die Verbesserung bei 10,4 %.
- Effizienz: RobustVLA ist 50,6-mal schneller in der Inferenz als BYOVLA, da es keine externen LLMs für die Bildverarbeitung benötigt.
Real-World (FR5 Robot):
- Low-Data-Szenario: Mit nur 25 Demonstrationen übertrifft RobustVLA das Basis- $\pi_0$ um 65,6 % in der Erfolgsrate.
- Hohe Datenmenge: Selbst mit 100 Demonstrationen (wo $\pi_0$ seine Leistungsgrenze erreicht) bleibt RobustVLA um 30 % besser.
- Das Modell zeigt starke Leistung bei Aufgaben wie Greifen, Manipulation deformierbarer Objekte und räumlichem Reasoning unter realen Störungen (Licht, Objekte, Sprachrauschen).

5. Bedeutung und Beiträge

Systematische Analyse: Der erste umfassende Überblick über die Anfälligkeit von VLA-Modellen gegenüber multi-modalen Unsicherheiten, der zeigt, dass Aktionen der kritischste Punkt sind.
Einheitliches Framework: RobustVLA bietet eine elegante Lösung, die Eingabe- und Ausgabe-Robustheit kombiniert, ohne auf externe, rechenintensive Modelle angewiesen zu sein.
Praktische Relevanz: Die Methode ermöglicht den zuverlässigen Einsatz von Robotern in unvorhersehbaren Umgebungen mit begrenzten Trainingsdaten, was ein entscheidender Schritt für den Einsatz von Embodied AI in der realen Welt ist.
Open Source: Code und Demo-Videos sind verfügbar, um die Reproduzierbarkeit zu gewährleisten.

Zusammenfassend demonstriert das Papier, dass Robustheit in VLA-Modellen nicht nur durch bessere Bildverarbeitung, sondern durch eine ganzheitliche Optimierung über alle Modalitäten (insbesondere die Aktionen) und adaptive Trainingsstrategien (UCB) erreicht werden muss.