Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations

Each language version is independently generated for its own context, not a direct translation.

Titel: Eva-VLA: Der „Stress-Test" für Roboterhirne

Stellen Sie sich vor, Sie haben einen hochintelligenten Roboter, der wie ein menschlicher Assistent funktioniert. Er kann sehen, verstehen, was Sie sagen, und Aufgaben erledigen – zum Beispiel einen Teller vom Tisch räumen oder eine Tasse einschenken. Diese Roboter werden mit sogenannten VLA-Modellen (Vision-Language-Action) gesteuert. Das sind quasi die „Gehirne", die Bilder, Sprache und Bewegungen verbinden.

Aber hier ist das Problem: Diese Roboterhirne sind in der ruhigen, perfekten Welt des Labors großartig. Sobald sie aber in die echte, chaotische Welt hinausgehen, werden sie schnell verwirrt. Ein bisschen Schatten, ein verrutschter Gegenstand oder ein seltsames Muster auf dem Tisch können sie komplett aus dem Konzept bringen.

Die Forscher in diesem Papier haben sich gefragt: „Wie fragil sind diese Roboter wirklich?" Und sie haben eine neue Methode entwickelt, um das herauszufinden, ohne den Roboter stundenlang in der echten Welt herumlaufen zu lassen.

Die Idee: Der „böse" Simulator

Stellen Sie sich vor, Sie wollen testen, wie stabil ein Haus ist. Sie könnten es einfach bauen und hoffen, dass es steht. Oder Sie könnten einen Simulator nutzen, in dem Sie gezielt Erdbeben, Sturm und Hagel simulieren, um zu sehen, wo die Schwachstellen liegen.

Die Forscher haben genau das für Roboter gemacht. Sie nennen ihr System Eva-VLA. Es ist wie ein digitaler Bösewicht, der versucht, den Roboter zu täuschen, indem er die Umgebung auf die cleverste, aber realistischste Weise verändert.

Die drei Werkzeuge des „Bösewichts"

Um den Roboter zu verwirren, nutzt Eva-VLA drei verschiedene Tricks, die alle in der echten Welt vorkommen können:

Der verrückte Tanz (3D-Transformationen):
Stellen Sie sich vor, Sie stellen eine Tasse auf den Tisch. Der Roboter weiß genau, wo sie ist. Aber was, wenn die Tasse plötzlich schief steht, umgekippt ist oder in einer völlig anderen Richtung liegt? Eva-VLA dreht und wendet Objekte im digitalen Raum so lange, bis der Roboter völlig verwirrt ist und nicht mehr weiß, wo er greifen soll. Es ist, als würde man einem Menschen die Brille schief aufsetzen, damit er die Welt schief sieht.
Die Licht-Schau (Beleuchtungsänderungen):
Roboter sind auf gutes Licht angewiesen. Eva-VLA simuliert, wie ein Lichtstrahl plötzlich von einer anderen Seite kommt, Schatten wirft, die alles verzerren, oder die Helligkeit so ändert, dass Objekte unsichtbar werden. Es ist, als würde man in einem Raum plötzlich mit einer Taschenlampe wild hin und her leuchten, während jemand versucht, einen Ball zu fangen.
Der Ablenkungs-Trick (Adversarial Patches):
Stellen Sie sich vor, Sie kleben ein seltsames, buntes Aufkleber-Muster auf den Tisch. Für uns sieht es harmlos aus, aber für den Roboter ist es wie ein magisches Schild, das sein Gehirn durcheinanderbringt. Der Roboter sieht vielleicht einen Stuhl, wo eigentlich ein Teller ist, oder ignoriert den Teller komplett. Eva-VLA sucht nach der perfekten Position für diesen „Ablenkungs-Aufkleber", damit der Roboter am meisten Fehler macht.

Wie funktioniert das? (Das „Schwarze Kasten"-Spiel)

Das Tolle an Eva-VLA ist, dass es nicht weiß, wie das Roboterhirn im Inneren funktioniert (es ist ein „Black-Box"-Test). Es kann also nicht einfach den Code ändern. Stattdessen spielt es ein Optimierungs-Spiel:

Es probiert tausende Kombinationen aus (z. B. Licht hierhin, Tasse dorthin).
Es schaut, wann der Roboter am meisten scheitert.
Es nutzt einen cleveren Algorithmus (CMA-ES), der wie ein erfahrener Trainer ist: Er lernt aus jedem Versuch, wo die Schwachstellen liegen, und wird mit jedem Schritt besser darin, den Roboter zu verwirren.

Das Ergebnis? Die Forscher haben herausgefunden, dass selbst die besten Roboter-Modelle (wie OpenVLA) unter diesen Bedingungen über 90 % der Aufgaben versagen. Das ist schockierend! In der sauberen Laborwelt funktionieren sie perfekt, aber bei kleinen, realistischen Störungen brechen sie komplett zusammen.

Warum ist das wichtig? (Der Nutzen)

Man könnte denken: „Warum wollen wir Roboter absichtlich scheitern lassen?"

Die Antwort ist: Um sie stärker zu machen.

Genau wie ein Immunsystem durch kleine Viren trainiert wird, um gegen schwere Krankheiten gewappnet zu sein, können Roboter durch diese „Stress-Tests" trainiert werden. Die Forscher haben gezeigt, dass sie die worst-case-Szenarien (die schlimmsten Fälle), die Eva-VLA gefunden hat, nutzen können, um den Roboter neu zu trainieren.

Das Ergebnis: Nach dem Training mit diesen schwierigen Szenarien wird der Roboter viel robuster. Er kann dann auch in der echten, chaotischen Welt Aufgaben erledigen, ohne sofort zu kollabieren.

Fazit

Eva-VLA ist wie ein Super-Test-Manager für Roboter. Es zeigt uns, dass unsere fortschrittlichsten KI-Roboter noch sehr zerbrechlich sind, wenn es um reale physikalische Störungen geht. Aber es bietet auch den Schlüssel, um sie widerstandsfähiger zu machen, bevor wir sie in Krankenhäusern, Fabriken oder unseren Wohnzimmern einsetzen. Es ist der erste Schritt von der „Laborkunst" zur „echten Zuverlässigkeit".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA)-Modelle haben sich als vielversprechende Lösung für die robotische Manipulation etabliert, indem sie visuelle Wahrnehmung, Sprachverständnis und Aktionsgenerierung in einem End-to-End-System vereinen. Trotz ihres Erfolgs in kontrollierten Laborumgebungen bleibt ihre Robustheit gegenüber realen physikalischen Variationen kritisch untererforscht.

In der realen Welt sind Roboter unvermeidlich mit physikalischen Störungen konfrontiert, wie z. B. räumlichen Transformationen von Objekten, Lichtveränderungen und visuellen Unterbrechungen. Diese können das Verhalten des Roboters drastisch ändern, ohne dass dies sofort erkennbar ist, was erhebliche Sicherheitsrisiken birgt. Bestehende Forschungsansätze zur Evaluierung der Robustheit (z. B. durch adversarial Patches) leiden unter folgenden Mängeln:

Sie verletzen oft physikalische Plausibilitätsbedingungen.
Sie erfassen nicht das breite Spektrum realer physikalischer Variationen.
Sie sind häufig auf White-Box-Ansätze (Zugriff auf Gradienten) angewiesen und damit für Black-Box-Szenarien ungeeignet.
Die Erfassung realer Worst-Case-Szenarien ist durch hohe Kosten und mangelnde Reproduzierbarkeit limitiert.

2. Methodik: Das Eva-VLA Framework

Die Autoren stellen Eva-VLA vor, ein einheitliches Framework, das die Robustheit von VLA-Modellen systematisch bewertet, indem es unkontrollierbare physikalische Variationen als kontinuierliche Optimierungsprobleme formuliert.

A. Parametrisierung physikalischer Variationen

Das Framework zerlegt reale Variationen in drei physikalisch plausible Dimensionen (siehe Abb. 1 im Paper):

3D-Objekttransformationen: Rigid-Body-Transformationen (Rotation) von Objekten im Szenario, parametrisiert durch Tait-Bryan-Winkel ( $\alpha, \beta, \gamma$ für Gier-, Nick- und Rollwinkel). Dies testet die räumliche Schlussfolgerung.
Beleuchtungsvariationen: Modellierung als Gaußsche Abfallfunktion (Gaussian Falloff) mit Parametern für Position ( $x, y$ ), Radius ( $\sigma$ ) und Intensität ( $I$ ). Dies testet die visuelle Wahrnehmung unter wechselnden Lichtverhältnissen.
Adversarial Patches: Platzierung natürlicher Bilder (z. B. Barcodes) auf der Tischplatte, parametrisiert durch räumliche Verschiebungen ( $\Delta x, \Delta y$ ). Dies testet das Szenenverständnis und die Aufmerksamkeit des Modells.

B. Optimierungsansatz (Black-Box)

Da VLA-Modelle oft nicht differenzierbar sind und keine Gradienten zugänglich sind, verwendet Eva-VLA einen gradientenfreien Ansatz:

Algorithmus: Es wird die Covariance Matrix Adaptation Evolution Strategy (CMA-ES) eingesetzt.
Ziel: Statt eines einzelnen Worst-Case-Punkts wird eine Wahrscheinlichkeitsverteilung über die Transformationsparameter gesucht.
Adversarial Objective ( $\mathcal{L}_{adv}$ ): Die Zielfunktion kombiniert zwei Komponenten:
1. Die negative Kosinus-Ähnlichkeit zwischen dem vorhergesagten Aktionsvektor und dem sauberen (Clean) Trajektorienvektor (um Abweichungen zu maximieren).
2. Einen starken terminalen Reward ( $\lambda \cdot \mathbb{I}_{fail}$ ), der nur ausgelöst wird, wenn die Aufgabe tatsächlich fehlschlägt. Dies stellt sicher, dass die Optimierung echte Aufgabenfehler und nicht nur subtile Abweichungen findet.

C. Suchstrategie

Der Prozess ist ein iterativer Loop:

Sampling von Kandidaten-Konfigurationen aus der aktuellen Verteilung.
Evaluierung durch Abfragen des VLA-Modells (Simulation).
Aktualisierung der Verteilungsparameter (Mittelwert und Kovarianz) basierend auf den erfolgreichsten Angriffen.
Zusätzlich werden Techniken wie Learning Rate Adaptation und Early Stopping eingesetzt, um die Effizienz zu steigern.

3. Hauptbeiträge

Systematische Kategorisierung: Einführung einer umfassenden Taxonomie physikalischer Variationen (3D-Transformation, Beleuchtung, Patches) für die Robustheitsbewertung.
Eva-VLA Framework: Entwicklung eines physikbewussten, gradientenfreien Frameworks, das physikalische Variationen in einen kontinuierlichen Suchraum überführt und Worst-Case-Szenarien effizient in Simulationen entdeckt, ohne reale Datenerhebungskosten.
Umfassende Evaluierung: Demonstration schwerwiegender Schwachstellen in führenden VLA-Modellen (OpenVLA, UniVLA, $\pi0.5$ ) und Validierung, dass adversarial Training mit den generierten Daten die Robustheit signifikant erhöht.

4. Ergebnisse

Die Experimente wurden auf dem LIBERO-Benchmark (vier Task-Kategorien: Spatial, Object, Goal, Long) mit mehreren State-of-the-Art-Modellen durchgeführt.

Quantitative Ergebnisse:
- VLA-Modelle zeigen in sauberen Umgebungen hohe Erfolgsraten, kollabieren aber unter optimierten physikalischen Variationen.
- OpenVLA weist eine durchschnittliche Ausfallrate von über 90% auf der LIBERO-Long-Aufgabe unter 3D-Transformationen auf.
- Selbst das hochleistungsfähige Modell $\pi0.5$ (Clean-Failure-Rate: 4%) steigt bei 3D-Transformationen auf eine Ausfallrate von 86%.
- 3D-Transformationen stellen die größte Bedrohung dar, gefolgt von Beleuchtungsänderungen und adversarial Patches.
- Die Optimierung ist essenziell: Zufällige Variationen führen zu deutlich geringeren Ausfallraten als die durch CMA-ES gefundene Worst-Case-Verteilung.
Qualitative Ergebnisse:
- 3D-Transformationen: Führen zu räumlicher Fehlausrichtung und falscher Platzierung von Objekten.
- Beleuchtung: Verursacht unvollständiges Greifen und vorzeitige Abbruch der Trajektorie aufgrund schlechter Objekterkennung.
- Patches: Führen zu oszillierenden Bewegungen und Verlust des Objektkontakts.
Robustheitsverbesserung (Defense):
- Durch adversarial Training mit den von Eva-VLA generierten Worst-Case-Daten konnte die Ausfallrate von $\pi0.5$ unter 3D-Transformationen von 85,8% auf 56,8% gesenkt werden, bei nur minimalen Einbußen bei der Standardleistung (Clean-Failure-Rate stieg nur von 4% auf 5%).
Real-World-Validierung:
- Die Ergebnisse wurden auch auf einem echten Roboterarm (AgileX Piper) mit RealSense-Kameras validiert. Die in der Simulation gefundenen Schwachstellen führten auch in der realen Welt zu instabilen Bewegungen und Aufgabenfehlern.

5. Bedeutung und Fazit

Das Paper zeigt auf, dass ein kritischer Kluft zwischen der Leistung von VLA-Modellen im Labor und ihrer Zuverlässigkeit in der realen Welt besteht. Selbst die fortschrittlichsten Modelle sind extrem anfällig für physikalische Variationen, die in der Realität alltäglich sind.

Eva-VLA dient als effektives Werkzeug, um diese Verwundbarkeiten systematisch aufzudecken.
Das Framework bietet eine Methode zur Datenaugmentierung, um die Resilienz robotischer Manipulationssysteme zu verbessern.
Die Studie unterstreicht die dringende Notwendigkeit, physikalische Robustheit als zentrales Kriterium bei der Entwicklung und Evaluierung von Robotik-KI zu berücksichtigen, bevor diese Systeme sicher in menschlichen Umgebungen eingesetzt werden können.