On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.

Jianing Guo, Zhenhong Wu, Chang Tu, Yiyao Ma, Xiangqi Kong, Zhiqian Liu, Jiaming Ji, Shuning Zhang, Yuanpei Chen, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Weifeng Lv, Simin Li

Veröffentlicht 2026-02-25
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Roboter ist wie ein hochintelligenter Koch, der in einer Küche arbeitet. Dieser Koch (das sogenannte VLA-Modell – Vision-Language-Action) kann sehen, was auf dem Tisch liegt, versteht Sprachbefehle wie „Bringe mir die Tasse" und führt dann die Handbewegungen aus, um die Tasse zu greifen.

Das Problem ist: In der echten Welt ist die Küche nicht perfekt. Es gibt Lichtwechsel, die Tasse wackelt, der Koch hat einen kleinen Zittern in der Hand, oder jemand ruft ihm etwas Unklares zu. Bisher waren diese Roboter-Köche sehr empfindlich: Ein bisschen Rauschen im Bild oder ein winziger Fehler im Befehl ließen sie komplett versagen.

Diese neue Forschung (von der Universität Beihang und anderen) möchte diesen Koch unverwundbar machen. Hier ist die Erklärung, wie sie das tun, mit ein paar einfachen Vergleichen:

1. Das große Problem: Wo hakt es eigentlich?

Die Forscher haben erst einmal getestet, woher die Fehler kommen. Sie haben den Roboter 17 verschiedenen Arten von „Stress" ausgesetzt:

  • Bilder: Das Bild ist unscharf, hat tote Pixel oder das Licht flackert.
  • Sprache: Der Befehl ist anders formuliert oder hat Tippfehler.
  • Umgebung: Es liegen störende Gegenstände herum oder jemand schiebt den Tisch.
  • Aktion (Die Bewegung): Das ist der wichtigste Punkt! Die Forscher fanden heraus, dass die Bewegung selbst der schwächste Punkt ist.

Die Analogie: Stell dir vor, du versuchst, einen Ball in einen Korb zu werfen. Wenn du das Bild des Korbs leicht unscharf siehst (Bilder-Störung), schaffst du es vielleicht noch. Aber wenn deine Hand beim Werfen plötzlich zittert oder der Ball kurz vor dem Korb von einem Windstoß abgelenkt wird (Bewegungs-Störung), ist das Spiel sofort vorbei. Der Roboter ist also am empfindlichsten, wenn er tatsächlich etwas tun soll.

2. Die Lösung: RobustVLA (Der „Stress-Test"-Koch)

Die Forscher haben eine neue Trainingsmethode namens RobustVLA entwickelt. Sie funktioniert wie ein extrem hartes, aber faires Ausbilder-Programm für den Roboter.

A. Das Training gegen „schlechte Hände" (Ausgangs-Robustheit)

Normalerweise lernt ein Roboter nur aus perfekten Videos von Menschen, die alles richtig machen.

  • Der Trick: RobustVLA fälscht während des Trainings absichtlich die Bewegungen. Es sagt dem Roboter: „Okay, jetzt versuch, die Tasse zu greifen, aber ich werde deine Hand absichtlich zittern lassen oder den Befehl leicht verzerren."
  • Die Metapher: Es ist wie ein Boxer, der im Training nicht nur gegen einen perfekten Gegner kämpft, sondern gegen jemanden, der ihn absichtlich stößt, schubst und aus dem Gleichgewicht bringt. Wenn der Boxer dann im echten Kampf (der echten Welt) einen Schlag bekommt, weiß er genau, wie er sich stabilisieren muss, ohne zu fallen.
  • Das Ergebnis: Der Roboter lernt, dass Fehler passieren können, und findet trotzdem noch den Weg zum Ziel.

B. Das Training gegen „schlechte Augen" (Eingangs-Robustheit)

Manchmal ist das Bild, das der Roboter sieht, verzerrt, oder der Befehl ist verwirrend.

  • Der Trick: Der Roboter wird gezwungen, die gleiche Bewegung auszuführen, egal ob das Bild leicht verrauscht ist oder der Befehl anders klingt, solange die Bedeutung gleich bleibt.
  • Die Metapher: Stell dir vor, du musst einen Schlüssel in ein Schloss stecken. Es ist egal, ob es dunkel ist, ob du eine Brille mit Kratzer trägst oder ob jemand im Hintergrund laut redet. Du musst trotzdem den Schlüssel finden und drehen. RobustVLA trainiert den Roboter, den „Kern" der Aufgabe zu erkennen und nicht von kleinen Details abgelenkt zu werden.

C. Der intelligente Trainer (Das Glücksspiel-Prinzip)

Es gibt viele verschiedene Arten von Störungen. Wie weiß man, welche am schlimmsten ist?

  • Die Metapher: Stell dir einen Trainer vor, der 17 verschiedene Arten von Stress-Tests hat (Licht, Lärm, Wackeln, etc.). Statt alle zufällig durchzuprobieren, nutzt RobustVLA einen cleveren Algorithmus (ein sogenanntes „Multi-Armed Bandit"-Problem, ähnlich wie beim Spielen an einem Spielautomaten mit vielen Hebeln).
  • Der Algorithmus probiert aus: „Welcher Hebel (welche Störung) bringt den Roboter am meisten ins Schwitzen?" Sobald er den schlimmsten Störfaktor gefunden hat, konzentriert sich das Training darauf, genau diesen zu überwinden. So wird der Roboter gegen das Schlimmste immun, nicht nur gegen das Durchschnittliche.

3. Die Ergebnisse: Warum ist das so cool?

  • Schneller als die Konkurrenz: Andere Methoden, die versuchen, Roboter robuster zu machen, nutzen riesige externe KI-Modelle, die wie ein langsamer, schwerfälliger Berater sind. RobustVLA ist wie ein gut trainierter Athlet: Es ist 50-mal schneller in der Ausführung, weil es alles selbst im Kopf hat.
  • Besser mit wenig Daten: Normalerweise braucht ein Roboter Tausende von Versuchen, um gut zu werden. RobustVLA kann mit nur 25 Versuchen (Demonstrationen) fast so gut werden wie ein Profi mit 100 Versuchen.
  • Echte Welt: In Tests mit einem echten Roboterarm (FR5) schaffte RobustVLA Aufgaben zu 65 % erfolgreicher als die alten Modelle, selbst wenn Licht, Sprache und Bewegung gestört waren.

Zusammenfassung

Die Forscher haben einen Weg gefunden, Roboter nicht nur „perfekt" zu trainieren, sondern sie auf das Chaos der echten Welt vorzubereiten. Sie machen den Roboter wie einen erfahrenen Seemann, der auch bei stürmischer See (Störungen) noch sicher sein Ziel erreicht, statt wie ein Anfänger, der bei der ersten Welle kentert.

Das Wichtigste: Sie haben erkannt, dass die Bewegung (die Aktion) der schwächste Punkt ist, und haben genau dort angesetzt, um den Roboter unerschütterlich zu machen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →