Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochmodernen Roboter, der wie ein genialer Koch oder ein geschickter Handwerker aussieht. Er kann Dinge sehen, verstehen und bewegen. Aber er hat einen kleinen, aber nervigen Schwachpunkt: Er ist extrem empfindlich gegenüber Worten.

Wenn Sie ihm sagen: „Drück die Cola-Dose," erledigt er die Aufgabe perfekt. Aber wenn Sie dasselbe auf eine etwas andere Art sagen, zum Beispiel: „Übe mit großer Sorgfalt Kraft auf den Aluminium-Behälter aus," stolpert der Roboter vielleicht und drückt in die Luft, weil er verwirrt ist.

Das ist das Problem, das die Forscher in diesem Papier lösen wollen. Sie haben eine neue Methode namens Q-DIG entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter ist wie ein strenger Schüler

Stellen Sie sich den Roboter als einen sehr intelligenten Schüler vor, der nur für eine ganz bestimmte Art von Prüfung gelernt hat. Wenn die Prüfungsfrage genau so formuliert ist, wie er sie kennt, besteht er. Ändert der Lehrer aber nur ein paar Wörter, ist der Schüler ratlos. In der Robotik nennt man das „Vulnerabilität" (Verwundbarkeit). Das ist gefährlich, wenn der Roboter später in der echten Welt mit Menschen interagiert, die nicht wie Roboter-Programmierer sprechen.

2. Die Lösung: Q-DIG als „Übungs-Coach"

Die Forscher haben einen cleveren Trainingsplan namens Q-DIG entwickelt. Man kann sich das wie einen sehr strengen, aber kreativen Sporttrainer vorstellen, der den Roboter auf alle möglichen Szenarien vorbereitet.

Der Trainer macht zwei Dinge gleichzeitig:

Er sucht nach Schwachstellen (Red-Teaming): Er versucht absichtlich, den Roboter zu verwirren, indem er ihm seltsame, aber immer noch sinnvolle Befehle gibt.
Er sorgt für Vielfalt (Quality Diversity): Das ist der Clou. Frühere Methoden haben oft nur eine Art von verwirrenden Befehlen gefunden (z. B. nur sehr formelle Sprache). Q-DIG hingegen sucht nach vielen verschiedenen Arten von Verwirrung.

3. Wie Q-DIG funktioniert: Das „Schubladen-System"

Stellen Sie sich Q-DIG wie ein Regal mit vielen Schubladen vor. Jede Schublade steht für einen bestimmten „Stil", wie man einen Befehl verstellen kann:

Schublade 1: Befehle mit zu vielen Details („Drücke die Dose ganz vorsichtig und langsam").
Schublade 2: Umgangssprache („Hey, mach die Dose weg, Kumpel!").
Schublade 3: Technische Fachbegriffe („Manipuliere das zylindrische Behältnis").

Q-DIG füllt diese Schubladen systematisch. Es nimmt einen Befehl, verformt ihn in einen dieser Stile, testet ihn am Roboter und schaut: „Hat der Roboter versagt?" Wenn ja, speichert es diesen Befehl in der passenden Schublade.

Der Trick: Es nutzt einen „Kreativ-Coach" (ein KI-Modell), der wie ein Schauspieler verschiedene Rollen spielt, um diese Befehle zu erfinden. Aber im Gegensatz zu einem wilden Improvisationstheater achtet Q-DIG darauf, dass die Befehle immer noch zur Situation passen (der Roboter sieht die Dose, also muss der Befehl sich auf die Dose beziehen).

4. Der große Gewinn: Der Roboter wird „immun"

Sobald Q-DIG eine ganze Sammlung dieser verwirrenden Befehle gesammelt hat, passiert das Wunder:
Die Forscher nehmen diese „schlechten" Befehle und fügen sie dem Trainingsmaterial des Roboters hinzu. Es ist, als würde man dem Roboter nicht nur die perfekte Prüfung zeigen, sondern ihm auch alle möglichen Fallen und Tricks zeigen, die ein Lehrer stellen könnte.

Dann lässt man den Roboter noch einmal lernen (Feinabstimmung). Das Ergebnis?

Der Roboter lernt, dass „Drück die Dose" und „Übe Kraft auf den Aluminium-Behälter aus" das Gleiche bedeuten.
Er wird robuster. Wenn ein echter Mensch ihm einen seltsamen Befehl gibt, stolpert er nicht mehr, sondern führt die Aufgabe trotzdem aus.

Zusammenfassung in einem Satz

Q-DIG ist wie ein Trainer, der einen Roboter absichtlich mit allen denkbaren, verwirrenden Sprachvarianten konfrontiert, damit er lernt, nicht auf das genaue Wort, sondern auf die Bedeutung zu hören – und dadurch in der echten Welt mit echten Menschen sicher und zuverlässig funktioniert.

Das Papier zeigt, dass dieser Ansatz funktioniert: Der Roboter wird nicht nur besser im Umgang mit seltsamen Befehlen, sondern die Befehle selbst klingen auch natürlicher und menschlicher als bei früheren Methoden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA)-Modelle haben das Potenzial, allgemeine Robotersteuerungssysteme zu ermöglichen, indem sie visuelle Eingaben mit Sprachanweisungen kombinieren, um Aktionen zu generieren. Ein kritisches Hindernis für den sicheren und zuverlässigen Einsatz ist jedoch die hohe Empfindlichkeit dieser Modelle gegenüber der genauen Formulierung von Sprachanweisungen.

Verletzlichkeit: Kleine semantische Änderungen in einer Anweisung (z. B. „Drücke die Cola-Dose" vs. „Übe vorsichtig Kraft auf den Aluminiumgetränkebehälter aus") können dazu führen, dass ein ansonsten funktionierender Roboterversagt.
Fehlende Robustheit: Bestehende VLA-Modelle sind oft nur auf eine schmale Palette von Anweisungsformulierungen trainiert und scheitern bei unerwarteten, aber sinnvollen menschlichen Formulierungen oder adversarialen Angriffen (Jailbreaking).
Herausforderung bei der Red-Teaming: Bisherige Methoden zur Generierung adversarialer Anweisungen (z. B. „Embodied Red Teaming" oder reine LLM-basierte Umformulierungen) erzeugen oft unrealistische Anweisungen oder decken keine kontrollierbare Vielfalt an Fehlermodi ab. Es fehlt eine Methode, die sowohl realistisch (in der Verteilung menschlicher Sprache) als auch divers (verschiedene Angriffsstile) ist und gleichzeitig den visuellen Kontext berücksichtigt.

2. Methodik: Q-DIG (Quality Diversity for Diverse Instruction Generation)

Das Paper stellt Q-DIG vor, ein Framework, das Quality Diversity (QD)-Optimierung mit Vision-Language Models (VLMs) kombiniert, um robuste VLA-Policies zu entwickeln.

Kernkonzept

Q-DIG zielt darauf ab, eine Sammlung („Archive") von adversarialen Anweisungen zu generieren, die spezifische Fehlermodi auslösen, aber dennoch im semantischen und visuellen Kontext der Aufgabe relevant bleiben.

Der Q-DIG-Prozess (Schritt für Schritt)

Formulierung als QD-Problem:
- Qualitätsmetrik: Anstatt nur die Fehlerrate zu maximieren (was zu unrealistischen Anweisungen führen könnte), wird die Varianz der Fehlerrate optimiert. Dies fördert Anweisungen, die am Rand der linguistischen Fähigkeiten des Modells liegen (grenzwertige Fälle), ohne völlig unsinnig zu sein.
- Diversitätsmetrik: Die Diversität wird durch vordefinierte „Angriffsstile" (Attack Styles) definiert (z. B. Verwendung von Adverbien, Umgangssprache, unnötige Schritt-für-Schritt-Auflösung, menschlicher Tonfall).
- Ziel: Für jeden Angriffsstil die Anweisung zu finden, die die höchste Varianz der Fehlerrate verursacht.
Generierungs-Pipeline:
- Auswahl: Q-DIG wählt eine bereits gefundene Anweisung aus dem Archiv als „Stepping Stone" aus.
- Mutation (Mutator): Ein VLM (Vision-Language Model) nutzt In-Context-Learning, um basierend auf der aktuellen Anweisung, dem visuellen Kontext (Startbild) und einem Ziel-Angriffsstil eine neue Kandidaten-Anweisung zu generieren.
- Selektion: Es werden mehrere Kandidatensätze generiert. Der Satz mit der höchsten semantischen Diversität (gemessen über Sentence-BERT Embeddings) wird ausgewählt.
- Evaluation: Die neuen Anweisungen werden im Simulator mit dem Basis-VLA getestet.
  - Berechnung der Fehlervarianz.
  - Klassifizierung des Angriffsstils durch einen externen LLM-Judge.
- Archiv-Update: Eine Anweisung wird nur im Archiv gespeichert, wenn sie entweder einen neuen Angriffsstil abdeckt (Diversität) oder eine höhere Fehlervarianz für denselben Stil aufweist als der aktuelle Eintrag (Qualität).
Fine-Tuning (Robustheitsverbesserung):
- Die generierten adversarialen Anweisungen werden mit den vorhandenen Expertendemonstrationen gepaart, um einen erweiterten Datensatz zu erstellen.
- Das Basis-VLA wird auf diesem Datensatz nachtrainiert (Supervised Fine-Tuning), um die Robustheit gegenüber diesen diversen und adversarialen Formulierungen zu erhöhen.

3. Wichtige Beiträge

Framework Q-DIG: Ein neuartiger Ansatz, der Quality-Diversity-Optimierung nutzt, um diverse, in-Verteilung liegende adversarial Anweisungen für VLAs zu generieren.
Visuelle Grounding: Im Gegensatz zu rein textbasierten Red-Teaming-Methoden (wie Rainbow Teaming) integriert Q-DIG visuelle Kontextinformationen, was für embodied AI (robotische Systeme) entscheidend ist.
Umfassende Evaluation: Die Methode wurde in zwei Simulationsumgebungen (SimplerEnv und LIBERO) sowie in einer Real-World-Evaluation (mit einem Gen-2 Kinova JACO-Arm) getestet.
Benutzerstudie: Eine Studie mit 40 Teilnehmern zeigte, dass von Q-DIG generierte Anweisungen als natürlicher und menschlicher wahrgenommen werden als solche von Baseline-Methoden.
Nachweis der Robustheitssteigerung: Es wurde gezeigt, dass das Fine-Tuning mit den Q-DIG-Daten die Erfolgsrate bei bisher ungesehenen Anweisungen signifikant verbessert.

4. Ergebnisse

Diversität und Qualität: Q-DIG generierte Anweisungen mit einer signifikant höheren semantischen Diversität (BERT-Diversity) und einer besseren Abdeckung der definierten Angriffsstile (Archive Coverage) im Vergleich zu Baselines wie „Rephrase" (einfaches Umformulieren) und „Embodied Red Teaming" (ERT).
- Beispiel: Q-DIG erreichte eine Abdeckung von ~97% der Angriffsstile in LIBERO, während Baselines nur ~36% erreichten.
Human-Likeness: In der Benutzerstudie wurden Q-DIG-Anweisungen signifikant höher bewertet als ERT-Anweisungen und gleichauf oder besser als Reprase-Anweisungen.
Fine-Tuning Performance:
- VLA-Modelle (OpenVLA-OFT, $\pi0.5$ , GR00T N1.6), die mit Q-DIG-Daten nachtrainiert wurden, zeigten eine 5–25%ige Steigerung der Erfolgsrate bei ungesehenen adversarialen Anweisungen im Vergleich zum Basis-Modell.
- Im Vergleich zu anderen Fine-Tuning-Datensätzen (Rephrase, ERT) führte Q-DIG oft zu den besten Ergebnissen, insbesondere bei Modellen, die bereits eine gewisse Aufgabenkompetenz besaßen.
Sim-to-Real Transfer: Die in der Simulation gefundenen Muster und die durch Fine-Tuning gewonnene Robustheit übertrugen sich erfolgreich auf reale Roboter. Ein mit Q-DIG-Daten nachtrainiertes Modell schaffte es, zuvor gescheiterte Anweisungen im realen Experiment erfolgreich auszuführen (z. B. Steigerung von 0/10 auf 7/10 bei einer spezifischen adversarialen Anweisung).

5. Bedeutung und Fazit

Das Paper demonstriert, dass systematisches Red-Teaming durch die Kombination von Quality Diversity und visuell-groundeten Modellen ein effektiver Weg ist, um die Robustheit von robotischen VLA-Systemen zu verbessern.

Sicherheitsrelevanz: Die Methode hilft, versteckte Schwachstellen in Robotern aufzudecken, bevor sie in sicherheitskritischen Umgebungen eingesetzt werden.
Generalisierung: Durch das Training mit diversen, aber realistischen Anweisungen lernen Roboter, Aufgaben unabhängig von der spezifischen Wortwahl zu verstehen, was die Generalisierungsfähigkeit auf neue Umgebungen und menschliche Interaktionen erhöht.
Skalierbarkeit: Obwohl die aktuelle Methode rechenintensiv ist (aufgrund von Rollouts im Simulator), legt sie den Grundstein für skalierbare Ansätze zur Sicherung von allgemeinen Robotern.

Zusammenfassend bietet Q-DIG einen vielversprechenden Weg, um die Lücke zwischen der theoretischen Leistungsfähigkeit von VLA-Modellen und ihrer praktischen Zuverlässigkeit in der realen Welt zu schließen.

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

1. Das Problem: Der Roboter ist wie ein strenger Schüler

2. Die Lösung: Q-DIG als „Übungs-Coach"

3. Wie Q-DIG funktioniert: Das „Schubladen-System"

4. Der große Gewinn: Der Roboter wird „immun"

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Q-DIG (Quality Diversity for Diverse Instruction Generation)

Kernkonzept

Der Q-DIG-Prozess (Schritt für Schritt)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá