LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: Roboter, die nur gucken, aber nicht hören

Stell dir vor, du hast einen hochmodernen Servierroboter in deiner Küche. Er sieht auf den ersten Blick genial aus: Er kann Teller stapeln, Gläser füllen und sogar komplexe Aufgaben erledigen. Auf den offiziellen Testschießständen (den „Prüfungen") besteht er fast jede Aufgabe mit einer 95-prozentigen Erfolgsquote. Man denkt also: „Wow, dieser Roboter versteht die Sprache perfekt!"

Aber die Autoren dieser Studie (Hou und Zhao) haben einen Trick angewendet, um das wahre Wesen des Roboters zu enthüllen. Sie haben herausgefunden, dass der Roboter eigentlich gar nicht zuhört. Er ist wie ein sehr guter Schauspieler, der die Rolle des „Hörens" nur spielt, aber im Hintergrund eigentlich nur auf die Bilder schaut.

Der Test: Die „Gleiche Küche, andere Bestellung"

Um das zu beweisen, haben die Forscher einen neuen Test entwickelt, den sie LangGap (Sprach-Lücke) nennen.

Stell dir vor, du sitzt an einem Tisch mit einem Teller, einer Schüssel und einem Löffel.

Der normale Test: Du sagst: „Nimm die Schüssel." Der Roboter tut es. (Erfolg!)
Der LangGap-Test: Der Tisch sieht exakt gleich aus. Aber du sagst plötzlich: „Nimm den Löffel."

Ein Roboter, der wirklich zuhört, würde den Löffel nehmen. Ein Roboter, der nur auf das Bild schaut, denkt: „Ah, ich kenne diesen Tisch. Auf diesem Tisch nehme ich immer die Schüssel." Und er nimmt trotzdem die Schüssel – oder macht gar nichts, weil er verwirrt ist.

Die Forscher haben diesen Test in vier verschiedenen „Sprach-Drehbuch-Varianten" durchgeführt:

Objekt ändern: „Nimm die Schüssel" statt „Nimm den Teller".
Ziel ändern: „Stell es auf den Herd" statt „Stell es auf den Teller".
Raum beschreiben: „Nimm die Schüssel, die rechts vom Teller steht".
Aktion ändern: „Öffne die Schublade" statt „Nimm die Schüssel".

Die schockierenden Ergebnisse

Das Ergebnis war ernüchternd:

Wenn man das Ziel änderte (z. B. „auf den Herd" statt „auf den Teller"), schaffte der beste Roboter (π0.5) 0 % Erfolg. Er ignorierte den Befehl komplett und tat das, was er vom Bild her kannte.
Bei anderen Änderungen (wie dem Objekt) schaffte er immerhin noch 29 %, aber das ist immer noch weit entfernt von „Verstehen".

Es ist, als würdest du einem Menschen sagen: „Geh zur Tür", aber er geht trotzdem zum Fenster, nur weil er das Fenster schon oft gesehen hat und die Tür noch nie in diesem Kontext. Er hat die Anweisung nicht verstanden, er hat nur die Gewohnheit befolgt.

Der Versuch, es zu reparieren: Der „Sprach-Kurs"

Die Forscher haben versucht, dem Roboter beizubringen, wirklich zuzuhören. Sie haben ihm extra Daten gegeben, bei denen er muss, um auf die Sprache zu achten (weil das Bild immer gleich bleibt, aber der Befehl sich ändert).

Kleiner Erfolg: Wenn man ihm nur eine neue Aufgabe beibringt, lernt er sie schnell (Erfolg steigt von 0 % auf 90 %).
Das Problem: Sobald man ihm viele verschiedene Aufgaben gleichzeitig beibringt, bricht das System zusammen. Je mehr Sprachvariationen er lernen soll, desto mehr verwirrt er sich. Es ist, als würdest du einem Schüler versuchen, 100 verschiedene Fremdsprachen in einer Woche beizubringen, während er gleichzeitig noch Mathe lernen soll. Er lernt die Muster, aber nicht die Bedeutung.

Was bedeutet das für die Zukunft?

Die Studie zeigt uns eine harte Wahrheit: Unsere aktuellen KI-Roboter sind sehr gut darin, Bilder zu erkennen und Muster zu wiederholen, aber sie sind noch nicht gut darin, Sprache wirklich zu verstehen.

Die Metapher: Bisher haben wir Roboter gebaut, die wie Parrot (Papageien) sind. Sie wiederholen, was sie gehört haben, wenn es zu einem bestimmten Bild passt. Wir brauchen aber Roboter, die wie Menschen sind, die verstehen, was gemeint ist, auch wenn sich die Situation leicht ändert.

Fazit:
Der „LangGap"-Test ist wie ein Spiegel, der zeigt, wo die KI noch blind ist. Die Forscher sagen: „Wir können das Problem nicht nur durch mehr Daten lösen. Wir brauchen bessere Gehirn-Architekturen, die Sprache wirklich mitdenken, nicht nur als Deko." Bis dahin sollten wir vorsichtig sein, wenn ein Roboter auf den ersten Blick alles perfekt macht – er könnte nur bluffen und auf das Bild schauen, statt auf uns zu hören.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA) Modelle haben in den letzten Jahren beeindruckende Erfolge auf Standard-Benchmarks wie LIBERO erzielt (z. B. über 95 % Erfolgsrate bei $\pi_0.5$ ). Dennoch deuten wachsende Beweise darauf hin, dass diese Modelle Sprachanweisungen oft ignorieren und sich stattdessen auf visuelle Abkürzungen (Visual Shortcuts) verlassen.

Das Kernproblem liegt in drei Bereichen:

Fehlende systematische Diagnose: Bisherige Arbeiten führen oft nur oberflächliche Paraphrasierungstests durch oder kommen zu groben Schlussfolgerungen (z. B. „Sprache wird ignoriert"), ohne zu analysieren, welche semantischen Dimensionen (Objekte, Ziele, räumliche Beziehungen) spezifisch versagen.
Mangelnde Benchmark-Strenge: Existierende Benchmarks wie LIBERO weisen pro visueller Szene meist nur eine einzige Aufgabe zu. Dies ermöglicht es Modellen, Aufgaben durch visuelles Auswendiglernen zu lösen, ohne die Sprache wirklich zu verstehen.
Ungenügende Trainingsdaten: Die Trainingsdaten weisen eine geringe sprachliche Vielfalt auf, was dazu führt, dass Modelle lernen, sprachliche Signale zu ignorieren (Modality Imbalance).

2. Methodik

A. Semantische Perturbations-Framework (Diagnose)

Die Autoren entwickeln ein systematisches Evaluierungsframework, das die visuelle Szene konstant hält, während die Sprachanweisungen in vier orthogonalen Dimensionen variiert werden. Dies zwingt das Modell, Sprache zu nutzen, da die visuelle Eingabe für verschiedene Aufgaben identisch ist. Die vier Dimensionen sind:

Objekt-Kategorie ändern (Change Object): Variation des zu manipulierenden Objekts (z. B. „Schüssel" $\to$ „Schälchen").
Ziel ändern (Change Target): Variation des Zielorts (z. B. „auf den Teller" $\to$ „auf den Herd").
Räumliche Beschreibung (Spatial Description): Unterscheidung von Objekten derselben Kategorie durch räumliche Relationen (z. B. „die Schüssel rechts vom Schälchen").
Schrank-Aktion (Drawer Action): Änderung des Aktionstyps (z. B. „hinstellen" $\to$ „Schrank öffnen").

B. Der LangGap Benchmark

Auf Basis der Diagnose wird der LangGap-Benchmark konstruiert.

Design-Prinzip: „Same-scene multi-task". Mehrere Aufgaben teilen sich denselben visuellen Anfangszustand. Ein Modell, das Sprache ignoriert, kann diese nicht unterscheiden und erreicht maximal eine Erfolgsrate von $1/k$ (wobei $k$ die Anzahl der Aufgaben pro Szene ist).
Umfang: 99 Aufgaben (40 originale LIBERO-Aufgaben + 59 erweiterte, semantisch pertubierte Aufgaben).
Datensatz: Es werden ca. 4.100 Demonstrations-Trajektorien gesammelt, wobei ein Instruction-Level-Split verwendet wird (Trainingsaufgaben decken nicht alle Testaufgaben ab).

C. Training und Validierung

Es werden progressive Fine-Tuning-Experimente mit dem Modell $\pi_0.5$ durchgeführt, um zu testen, ob gezielte Datenaugmentierung die Lücke schließen kann. Dabei werden verschiedene Skalierungen verglichen (einzelne Aufgaben vs. Multi-Task-Training mit offiziellen und erweiterten Daten).

3. Wichtige Beiträge

Diagnostische Taxonomie: Einführung einer vierdimensionalen semantischen Perturbations-Taxonomie, die differenzierte Fehlermodi aufdeckt (z. B. vollständiges Versagen bei Zieländerungen vs. teilweise Erfolge bei Objektänderungen).
LangGap Benchmark: Der erste VLA-Evaluierungs-Benchmark, der durch Design eine Sprachabhängigkeit erzwingt, indem er diverse Aufgaben unter identischen visuellen Eingaben bereitstellt.
Empirische Validierung: Systematische Experimente, die zeigen, dass gezielte Daten zwar kleine Lücken schließen können, aber bei steigender semantischer Vielfalt an ihre Grenzen stoßen.

4. Ergebnisse

Die Experimente mit $\pi_0.5$ liefern folgende zentrale Erkenntnisse:

Massive Leistungsabfälle bei Perturbationen:
- Original-Aufgaben: ~93,8 % Erfolgsrate.
- Semantische Perturbationen (durchschnittlich): ~21,4 %.
- Change Target (Zieländerung): 0,0 % Erfolgsrate. Das Modell ignoriert die sprachliche Beschreibung des Zielorts vollständig und folgt visuellen Mustern.
- Change Object (Objektänderung): 29,3 %.
- Spatial Description: 11,0 %.
- Drawer Action: 31,7 %.
Effekte des Trainings (Skalierung):
- Einzelne Aufgabe: Das Fine-Tuning auf einer einzigen neuen Aufgabe steigert die Erfolgsrate von 3,75 % auf 90 %. Dies zeigt, dass das Modell lernen kann, aber oft nur auswendig lernt.
- Dilution-Effekt (Verwässerung): Wenn das Training auf mehrere Aufgaben (z. B. 45 Aufgaben) ausgeweitet wird, sinkt die Leistung auf den erweiterten Aufgaben drastisch (von 28 % auf 4 %). Das Hinzufügen offizieller Trainingsdaten verwässert den Lerneffekt für die neuen, sprachlich komplexen Aufgaben.
- Grenzen der Generalisierung: Selbst bei Multi-Task-Training (16 oder 56 Aufgaben) bleibt die Leistung auf den erweiterten Aufgaben gering (ca. 6–27 %). Das Modell scheitert daran, ein generalisierendes Sprachverständnis für diverse semantische Variationen zu entwickeln.
Vergleich verschiedener Modelle:
- $\pi_0.5$ schneidet am besten ab (21,4 % auf erweiterten Aufgaben).
- $\pi_0$ -FAST und SmolVLA schneiden deutlich schlechter ab (2,7 % bzw. 6,4 %), was darauf hindeutet, dass die Modellarchitektur (z. B. Action Chunking bei FAST) die Sprachabhängigkeit weiter reduziert.

5. Bedeutung und Schlussfolgerung

Das Paper identifiziert ein fundamentales Problem in aktuellen VLA-Architekturen: Sie sind nicht in der Lage, diverse Sprachanweisungen robust zu verstehen, wenn diese von den Trainingsmustern abweichen, insbesondere bei räumlichen Zielen.

Diagnostischer Wert: LangGap dient als wichtiges Werkzeug, um Modelle nicht nur nach ihrer Gesamtgenauigkeit, sondern nach ihrer echten Sprachverständnisfähigkeit zu bewerten.
Herausforderung für die Zukunft: Die Studie zeigt, dass reine Datenaugmentierung (mehr Daten im gleichen visuellen Setting) bei steigender semantischer Komplexität nicht ausreicht.
Empfehlung: Um echte Sprachverständnisse zu erreichen, sind zukünftig sowohl datengetriebene Ansätze (diversere, sprachlich anspruchsvolle Datensätze) als auch architektonische Innovationen (z. B. Mechanismen zur besseren Integration von räumlichen Relationen) notwendig.

Zusammenfassend stellt LangGap einen langfristigen Referenzpunkt dar, um den Fortschritt von VLA-Modellen hin zu echter, sprachbasierter Robotiksteuerung zu messen, anstatt sich auf visuelle Memorierung zu verlassen.