When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochintelligenten Roboterarm, den Sie wie einen Gehilfen beauftragen können. Sie sagen ihm: „Nimm mir das Senfglas." Aber der Roboter ignoriert Sie völlig, greift stattdessen nach dem Klebeband, das er gestern schon oft gesehen hat, und sagt: „Ich weiß, was ich tun muss!"

Genau dieses Problem untersuchen die Autoren dieses Papers. Sie nennen es „Gegenfaktisches Versagen" (Counterfactual Failure). Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen.

1. Das Problem: Der Roboter ist ein „Seh-Süchtiger"

Stellen Sie sich vor, Sie trainieren einen Hund. Sie zeigen ihm immer wieder, wie er einen Ball holt. Wenn Sie ihm dann sagen: „Hole mir die Zeitung!", rennt der Hund trotzdem zum Ball, weil er den Ball so oft gesehen hat und weiß, dass er ihn holen soll. Er ignoriert Ihr Wort, weil das Bild des Balls in seinem Kopf stärker ist als Ihre Stimme.

Das passiert auch bei modernen Robotik-KI-Modellen (genannt VLAs – Vision-Language-Action-Modelle):

Der Bias (Die Voreingenommenheit): Die Daten, mit denen diese KIs trainiert werden, sind oft unausgewogen. Sie sehen tausende Bilder von einem Klebeband, das bewegt wird, aber nur wenige Sätze, die sagen „Nimm das Senfglas".
Der „Abkürzungs"-Effekt: Die KI lernt Abkürzungen. Sie denkt: „Oh, da ist ein Klebeband? Dann muss ich das Klebeband nehmen!" Sie hört gar nicht mehr genau hin, was Sie sagen. Sie vertraut ihren Augen mehr als Ihren Worten.

2. Der neue Test: „LIBERO-CF" (Der Lügen-Test)

Um zu beweisen, dass diese KIs wirklich blind für Anweisungen sind, haben die Forscher einen neuen Test entwickelt, den sie LIBERO-CF nennen.

Wie funktioniert er? Sie nehmen eine bekannte Szene (z. B. ein Tisch mit Klebeband und Senf). Normalerweise wird der Roboter trainiert, das Klebeband zu holen.
Der Trick: Im Test sagen sie dem Roboter plötzlich: „Hole das Senfglas!" (obwohl er das nie geübt hat).
Das Ergebnis: Die meisten KIs scheitern kläglich. Sie greifen trotzdem nach dem Klebeband, weil sie denken: „In dieser Szene gibt es nur Klebeband, also muss das gemeint sein." Sie ignorieren Ihre neue Anweisung komplett.

3. Die Lösung: „CAG" (Der Zweig-Manager)

Die Forscher haben eine clevere Lösung gefunden, die sie CAG (Counterfactual Action Guidance) nennen. Man kann sich das wie einen Zweig-Manager vorstellen, der zwei verschiedene Gedankenströme vergleicht, bevor der Roboter eine Handlung ausführt.

Stellen Sie sich vor, der Roboter hat zwei Gehirne:

Gehirn A (Der Visionär): Schaut nur auf die Bilder. Es denkt: „Da ist Klebeband! Ich nehme Klebeband!" (Es ignoriert Ihre Sprache).
Gehirn B (Der Sprachführer): Hört genau zu. Es denkt: „Der Chef hat Senf gesagt!"

Wie CAG funktioniert:
Normalerweise gewinnt Gehirn A (das Bild) immer. CAG mischt die beiden Meinungen auf eine spezielle Weise:

Es nimmt die Meinung von Gehirn A (das Bild).
Es addiert die Unterschiede, die Gehirn B (die Sprache) vorschlägt.
Die Analogie: Stellen Sie sich vor, Sie gehen mit einem Freund spazieren. Ihr Freund (das Bild) will zum Eiscafé, weil er das Schild sieht. Sie (die Sprache) sagen: „Nein, wir gehen zum Park!"
- Ohne CAG: Ihr Freund zieht Sie einfach zum Eiscafé.
- Mit CAG: Sie nehmen die Richtung Ihres Freundes, aber Sie korrigieren sie stark in Richtung Park. Sie sagen: „Okay, wir gehen in die Richtung, aber wir drehen uns deutlich zum Park."

Dadurch wird der Roboter gezwungen, Ihre Worte ernst zu nehmen, auch wenn das Bild ihn in eine andere Richtung zieht.

4. Die Ergebnisse: Ein Wundermittel ohne Umbau

Das Tolle an dieser Methode ist, dass man den Roboter nicht neu bauen oder neu trainieren muss. Es ist wie ein Software-Update, das man einfach „einschaltet".

Im Test: Wenn sie CAG aktivieren, hören die Roboter plötzlich wieder auf ihre Anweisungen. Statt nach dem Klebeband zu greifen, holen sie tatsächlich das Senfglas.
In der echten Welt: Sie haben das auch mit echten Robotern getestet. Die Ergebnisse waren beeindruckend: Die Roboter machten deutlich weniger Fehler, wenn sie nach einem neuen Objekt oder an einem neuen Ort greifen sollten.

Zusammenfassung

Die Forscher haben gezeigt, dass viele Roboter-KIs eigentlich „blind" für neue Anweisungen sind, weil sie zu sehr auf das vertrauen, was sie vorher gesehen haben. Mit ihrer neuen Methode CAG geben sie dem Roboter einen „Zwischencheck", bei dem die Sprache wieder wichtiger wird als das bloße Bild.

Kurz gesagt: Sie haben dem Roboter beigebracht, nicht nur zu schauen, sondern auch wirklich zuzuhören. Und das, ohne ihn neu zu programmieren – einfach durch eine intelligente Art, wie er seine Entscheidungen trifft.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Visuelle Abkürzungen und kontrafaktische Fehler

Das Paper adressiert ein kritisches Versagensmuster in Vision-Language-Action (VLA)-Modellen, die für die robotische Manipulation entwickelt wurden. Obwohl VLAs versprechen, Sprachanweisungen mit der Robotersteuerung zu verknüpfen, zeigen sie in der Praxis oft eine mangelnde Treue bei der Befolgung von Anweisungen.

Kontrafaktische Fehler (Counterfactual Failures): Wenn ein VLA-Modell mit Anweisungen konfrontiert wird, die zwar visuell plausibel, aber im Kontext des Trainingsdatensatzes neu oder unterrepräsentiert sind, ignoriert es die Sprachanweisung häufig. Stattdessen führt es stattdessen gut gelernte, szenenspezifische Verhaltensweisen aus, die auf den Trainingsdaten basieren.
Ursache – Visuelle Abkürzungen (Vision Shortcuts): Die Autoren führen dies auf ein Modality Imbalance (Modus-Ungleichgewicht) zurück. Roboter-Datensätze sind oft auf spezifische Aufgaben in festen Szenen beschränkt. Da visuelle Daten (Bilder) und Aktionen im Vergleich zu Textdaten dominieren, lernen die Modelle „visuelle Abkürzungen". Sie verlassen sich stark auf visuelle Hinweise (z. B. das Vorhandensein eines bestimmten Objekts) und marginalisieren die Sprachanweisung.
Bayessche Interpretation: Aus bayesscher Sicht kollabiert die posterior-Verteilung der Aktion $P(a|o, l)$ fast vollständig auf die visuelle Prior-Verteilung $P(a|o)$ . Die Sprache $l$ hat nur einen geringen Einfluss auf die Aktionsvorhersage, da die Likelihood $P(l|a, o)$ im Vergleich zum visuellen Prior vernachlässigbar ist.

2. Methodik: LIBERO-CF Benchmark und CAG

Um dieses Problem systematisch zu untersuchen und zu lösen, stellen die Autoren zwei Hauptbeiträge vor: einen neuen Benchmark und eine neue Inferenz-Methode.

A. LIBERO-CF Benchmark

Die Autoren führen LIBERO-CF ein, den ersten Benchmark zur Evaluierung von kontrafaktischen Fehlern in VLAs.

Design: Basierend auf dem etablierten LIBERO-Datensatz werden unter denselben visuellen Layouts alternative, aber plausible Sprachanweisungen zugewiesen.
Kategorien: Der Benchmark umfasst vier Suites:
- CF-Spatial: Zielt auf Objekte ab, die im Training nur als Hintergrund dienten.
- CF-Object: Richtet sich an andere Objekte als im Training.
- CF-Long: Mehrstufige Langzeit-Aufgaben mit neuen Zielen.
- CF-OOD: Aufgaben mit Objekten, die während des Fine-Tunings nie gesehen wurden (Out-of-Distribution).
Metriken: Neben der klassischen Erfolgswahrscheinlichkeit („Success") wird eine Grounding-Rate eingeführt, die misst, ob der Greifer das angegebene Objekt berührt, unabhängig vom Gesamterfolg der Aufgabe. Dies isoliert die Sprachbefolgung von der Manipulationsfähigkeit.

B. Counterfactual Action Guidance (CAG)

Um die Sprachabhängigkeit zu stärken, schlagen die Autoren CAG vor, eine einfache, aber effektive Inferenz-Strategie, die keine Änderungen am Modellarchitektur oder den vortrainierten Gewichten erfordert.

Prinzip: Inspiriert von Classifier-Free Guidance (CFG) bei generativen Modellen, kombiniert CAG zwei Policy-Branches während der Inferenz:
1. Eine bedingte Policy ( $\pi_{cond}$ ): Das Standard-VLA-Modell, das auf Sprache und Vision reagiert.
2. Eine unbedingte Policy ( $\pi_{uncond}$ ): Ein reines Vision-Action (VA) Modell, das nur auf visuelle Eingaben reagiert (Sprache wird ignoriert oder als Null behandelt).
Formel: Die finale Policy wird als gewichtete Mischung berechnet:
$\pi_{CAG}(a | o, l) = \pi_{uncond}(a | o, \emptyset) + \omega \cdot (\pi_{cond}(a | o, l) - \pi_{uncond}(a | o, \emptyset))$
Dabei ist $\omega$ der Guidance-Scale.
Wirkung: Diese Formel wirkt als eine Re-Weighting der Posterior-Verteilung. Sie verstärkt den Einfluss der Sprach-Likelihood $P(l|a, o)$ relativ zum visuellen Prior $P(a|o)$ , ohne den visuellen Prior vollständig zu entfernen.
Implementierungsvarianten:
1. Training-Free (TF): Das gleiche VLA-Modell wird verwendet; bei der Inferenz wird die Sprache einfach weggelassen, um $\pi_{uncond}$ zu approximieren.
2. Vision-Action Prior (VA): Ein separates, explizit auf Vision-Action trainiertes Modell dient als $\pi_{uncond}$ . Dies liefert einen saubereren visuellen Prior.

3. Ergebnisse

Die Autoren evaluieren ihre Methode an State-of-the-Art-Modellen (OpenVLA-OFT, $\pi_0$ , $\pi_{0.5}$ ) sowohl in Simulation (LIBERO-CF) als auch in der realen Welt.

Bestehende Modelle: Alle getesteten VLAs leiden unter schweren kontrafaktischen Fehlern. Selbst bei Anweisungen, die von der Trainingsaufgabe abweichen, führen sie oft die ursprüngliche Trainingsaufgabe aus (hohe „Biased"-Raten, niedrige „Faithful"-Raten).
Effektivität von CAG:
- Simulation: CAG verbessert die Grounding-Rate und die Erfolgswahrscheinlichkeit bei unterbeobachteten Aufgaben signifikant. Für $\pi_{0.5}$ stieg die durchschnittliche Grounding-Rate von 30,8 % auf 46,3 % (mit VA-Variante), während die Fehlerrate (Bias) drastisch sank.
- Real-World: In Experimenten mit einem Franka-Roboter reduzierte CAG kontrafaktische Fehler um 9,4 % und verbesserte die Gesamterfolgsrate um durchschnittlich 17,2 %.
- Robustheit: CAG funktioniert über verschiedene Architekturen hinweg und verbessert die Leistung bei räumlicher Reasoning, Objekt-Identifikation und Out-of-Distribution-Objekten, ohne die Leistung bei den ursprünglichen Trainingsaufgaben zu verschlechtern.
Guidance Scale: Die Studie zeigt, dass ein optimaler Guidance-Scale ( $\omega$ ) entscheidend ist. Zu kleine Werte korrigieren nicht genug, zu große Werte führen zu „Over-Guidance" und verschlechtern die Manipulationspräzision.

4. Hauptbeiträge

LIBERO-CF: Einführung des ersten standardisierten Benchmarks zur systematischen Evaluierung von Sprachbefolgung und kontrafaktischen Fehlern in VLAs.
CAG (Counterfactual Action Guidance): Entwicklung einer universellen, plug-and-play Inferenz-Strategie, die die Sprachbedingtheit in VLAs stärkt, ohne das Training neu durchzuführen oder die Architektur zu ändern.
Umfassende Analyse: Eine detaillierte Untersuchung der Ursachen von visuellen Abkürzungen und der Nachweis, dass diese Fehler in modernen VLAs weit verbreitet, aber bisher unterschätzt sind.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen Beitrag zum Verständnis der Grenzen aktueller robotischer KI-Systeme. Es zeigt, dass VLAs oft nicht wirklich „verstehen", was sie tun sollen, sondern eher auf visuelle Muster reagieren, die sie aus dem Training kennen.

Die vorgeschlagene Methode CAG ist besonders bedeutsam, da sie eine kosteneffiziente Lösung bietet: Sie erfordert keine neuen Datensammlungen, kein teures Nachtrainieren der großen Modelle und keine Architekturänderungen. Stattdessen nutzt sie die Inferenzphase intelligent aus, um die Balance zwischen visueller Intuition und sprachlicher Anweisung wiederherzustellen. Dies erhöht die Zuverlässigkeit und Sicherheit von Robotern in realen Umgebungen, wo Anweisungen oft von den Trainingsdaten abweichen.

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

1. Das Problem: Der Roboter ist ein „Seh-Süchtiger"

2. Der neue Test: „LIBERO-CF" (Der Lügen-Test)

3. Die Lösung: „CAG" (Der Zweig-Manager)

4. Die Ergebnisse: Ein Wundermittel ohne Umbau

Zusammenfassung

1. Problemstellung: Visuelle Abkürzungen und kontrafaktische Fehler

2. Methodik: LIBERO-CF Benchmark und CAG

A. LIBERO-CF Benchmark

B. Counterfactual Action Guidance (CAG)

3. Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Fazit

Mehr davon

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration