When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Die Arbeit stellt mit LIBERO-CF das erste Benchmark zur Evaluierung von Gegenfaktorialitätsfehlern in Vision-Language-Action-Modellen vor und schlägt Counterfactual Action Guidance (CAG) vor, eine trainingsfreie, dual-branch Inferenzmethode, die die Sprachabhängigkeit dieser Modelle stärkt und deren Zuverlässigkeit sowohl in Simulationen als auch in der realen Welt signifikant verbessert.

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

Veröffentlicht 2026-02-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochintelligenten Roboterarm, den Sie wie einen Gehilfen beauftragen können. Sie sagen ihm: „Nimm mir das Senfglas." Aber der Roboter ignoriert Sie völlig, greift stattdessen nach dem Klebeband, das er gestern schon oft gesehen hat, und sagt: „Ich weiß, was ich tun muss!"

Genau dieses Problem untersuchen die Autoren dieses Papers. Sie nennen es „Gegenfaktisches Versagen" (Counterfactual Failure). Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen.

1. Das Problem: Der Roboter ist ein „Seh-Süchtiger"

Stellen Sie sich vor, Sie trainieren einen Hund. Sie zeigen ihm immer wieder, wie er einen Ball holt. Wenn Sie ihm dann sagen: „Hole mir die Zeitung!", rennt der Hund trotzdem zum Ball, weil er den Ball so oft gesehen hat und weiß, dass er ihn holen soll. Er ignoriert Ihr Wort, weil das Bild des Balls in seinem Kopf stärker ist als Ihre Stimme.

Das passiert auch bei modernen Robotik-KI-Modellen (genannt VLAs – Vision-Language-Action-Modelle):

  • Der Bias (Die Voreingenommenheit): Die Daten, mit denen diese KIs trainiert werden, sind oft unausgewogen. Sie sehen tausende Bilder von einem Klebeband, das bewegt wird, aber nur wenige Sätze, die sagen „Nimm das Senfglas".
  • Der „Abkürzungs"-Effekt: Die KI lernt Abkürzungen. Sie denkt: „Oh, da ist ein Klebeband? Dann muss ich das Klebeband nehmen!" Sie hört gar nicht mehr genau hin, was Sie sagen. Sie vertraut ihren Augen mehr als Ihren Worten.

2. Der neue Test: „LIBERO-CF" (Der Lügen-Test)

Um zu beweisen, dass diese KIs wirklich blind für Anweisungen sind, haben die Forscher einen neuen Test entwickelt, den sie LIBERO-CF nennen.

  • Wie funktioniert er? Sie nehmen eine bekannte Szene (z. B. ein Tisch mit Klebeband und Senf). Normalerweise wird der Roboter trainiert, das Klebeband zu holen.
  • Der Trick: Im Test sagen sie dem Roboter plötzlich: „Hole das Senfglas!" (obwohl er das nie geübt hat).
  • Das Ergebnis: Die meisten KIs scheitern kläglich. Sie greifen trotzdem nach dem Klebeband, weil sie denken: „In dieser Szene gibt es nur Klebeband, also muss das gemeint sein." Sie ignorieren Ihre neue Anweisung komplett.

3. Die Lösung: „CAG" (Der Zweig-Manager)

Die Forscher haben eine clevere Lösung gefunden, die sie CAG (Counterfactual Action Guidance) nennen. Man kann sich das wie einen Zweig-Manager vorstellen, der zwei verschiedene Gedankenströme vergleicht, bevor der Roboter eine Handlung ausführt.

Stellen Sie sich vor, der Roboter hat zwei Gehirne:

  1. Gehirn A (Der Visionär): Schaut nur auf die Bilder. Es denkt: „Da ist Klebeband! Ich nehme Klebeband!" (Es ignoriert Ihre Sprache).
  2. Gehirn B (Der Sprachführer): Hört genau zu. Es denkt: „Der Chef hat Senf gesagt!"

Wie CAG funktioniert:
Normalerweise gewinnt Gehirn A (das Bild) immer. CAG mischt die beiden Meinungen auf eine spezielle Weise:

  • Es nimmt die Meinung von Gehirn A (das Bild).
  • Es addiert die Unterschiede, die Gehirn B (die Sprache) vorschlägt.
  • Die Analogie: Stellen Sie sich vor, Sie gehen mit einem Freund spazieren. Ihr Freund (das Bild) will zum Eiscafé, weil er das Schild sieht. Sie (die Sprache) sagen: „Nein, wir gehen zum Park!"
    • Ohne CAG: Ihr Freund zieht Sie einfach zum Eiscafé.
    • Mit CAG: Sie nehmen die Richtung Ihres Freundes, aber Sie korrigieren sie stark in Richtung Park. Sie sagen: „Okay, wir gehen in die Richtung, aber wir drehen uns deutlich zum Park."

Dadurch wird der Roboter gezwungen, Ihre Worte ernst zu nehmen, auch wenn das Bild ihn in eine andere Richtung zieht.

4. Die Ergebnisse: Ein Wundermittel ohne Umbau

Das Tolle an dieser Methode ist, dass man den Roboter nicht neu bauen oder neu trainieren muss. Es ist wie ein Software-Update, das man einfach „einschaltet".

  • Im Test: Wenn sie CAG aktivieren, hören die Roboter plötzlich wieder auf ihre Anweisungen. Statt nach dem Klebeband zu greifen, holen sie tatsächlich das Senfglas.
  • In der echten Welt: Sie haben das auch mit echten Robotern getestet. Die Ergebnisse waren beeindruckend: Die Roboter machten deutlich weniger Fehler, wenn sie nach einem neuen Objekt oder an einem neuen Ort greifen sollten.

Zusammenfassung

Die Forscher haben gezeigt, dass viele Roboter-KIs eigentlich „blind" für neue Anweisungen sind, weil sie zu sehr auf das vertrauen, was sie vorher gesehen haben. Mit ihrer neuen Methode CAG geben sie dem Roboter einen „Zwischencheck", bei dem die Sprache wieder wichtiger wird als das bloße Bild.

Kurz gesagt: Sie haben dem Roboter beigebracht, nicht nur zu schauen, sondern auch wirklich zuzuhören. Und das, ohne ihn neu zu programmieren – einfach durch eine intelligente Art, wie er seine Entscheidungen trifft.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →