LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die net zo slim lijkt als een afgestudeerde student. Als je hem vraagt: "Pak die kom en zet hem op het bord", doet hij het perfect. Hij slaagt in 95% van de gevallen. Je denkt: "Wow, deze robot begrijpt wat ik zeg!"

Maar de auteurs van dit paper, Yuchen Hou en Lin Zhao, hebben een verdachte ontdekking gedaan. Ze zeggen: "Nee, die robot luistert eigenlijk niet naar je. Hij kijkt alleen naar de foto."

Hier is wat ze hebben ontdekt, vertaald in een simpel verhaal met een paar creatieve vergelijkingen.

1. De "Foto-geheugen" valkuil

Stel je voor dat je een robot leert om een taak te doen in een keuken.

De oude manier: Je laat de robot 100 keer zien: "Als je een kom ziet op de tafel, zet hem dan op het bord." De robot leert niet wat de woorden betekenen. Hij leert gewoon: "Zie ik een kom? Dan moet ik naar het bord gaan." Hij onthoudt de foto, niet de zin.
Het probleem: Als je de robot nu vraagt: "Pak die kom en zet hem op de kachel" (in plaats van het bord), faalt hij totaal. Hij kijkt naar de kom, ziet het bord, en doet wat hij altijd doet. Hij negeert het woord "kachel" compleet.

De auteurs noemen dit het "Taal-Gat" (LangGap). De robot heeft een gat in zijn begrip van taal, hoewel hij er slim uitziet.

2. De nieuwe test: LangGap

Om dit te bewijzen, hebben ze een nieuwe test gemaakt die ze LangGap noemen.
Stel je voor dat je een robot in een kamer zet met een tafel.

De oude test: Je vraagt één keer: "Pak de kom." De robot doet het. Klaar.
De LangGap-test: Je laat de robot in exact dezelfde kamer staan, met exact dezelfde kom op exact dezelfde plek. Maar nu geef je hem 5 verschillende opdrachten:
1. "Pak de kom en zet hem op het bord."
2. "Pak de kom en zet hem op de kachel."
3. "Pak de kom en zet hem in de kast."
4. "Pak de kom en zet hem op de stoel."
5. "Open de lade in plaats van de kom te pakken."

Omdat de foto (de kamer) precies hetzelfde is, kan de robot niet meer op zijn geheugen vertrouwen. Hij moet luisteren naar de woorden. Als hij de woorden niet begrijpt, kan hij de juiste opdracht niet kiezen.

3. Wat ontdekten ze? (De diagnose)

Ze hebben de robot (een model genaamd $\pi0.5$ ) deze test laten doen en zagen iets schokkends:

Als je vraagt om een andere kom te pakken, doet hij het soms wel goed (29% succes).
Maar als je vraagt om de kom op een andere plek te zetten (bijv. van bord naar kachel), faalt hij 100% van de tijd.

Het is alsof je een taxi-bestuurder vraagt om naar "Station Zuid" te gaan, maar hij rijdt altijd naar "Station Noord" omdat hij daar vaker heen is geweest, ongeacht wat je zegt. Hij luistert niet naar de bestemming.

4. Kunnen we het oplossen? (De training)

De auteurs dachten: "Laten we de robot gewoon meer oefenen met deze nieuwe zinnen."

Kleine oefening: Als ze hem maar één nieuwe opdracht lieten oefenen, ging het heel goed (van 0% naar 90% succes). De robot kon het leren.
Grote oefening: Maar toen ze hem 16 of 50 verschillende, moeilijke opdrachten gaven, ging het weer mis. De robot raakte in de war.

De metafoor:
Het is alsof je een student leert wiskunde.

Als je hem één som geeft, leert hij het.
Als je hem 50 verschillende soorten sommen geeft, probeert hij ze allemaal te onthouden in plaats van de logica te begrijpen. Hij raakt overbelast.

De conclusie is: Meer data alleen is niet genoeg. De robot heeft een "hersenen" nodig die echt begrijpt wat woorden betekenen, niet alleen een hersenen die foto's matcht.

5. Waarom is dit belangrijk?

Tot nu toe dachten we dat robots steeds slimmer werden omdat ze op benchmarks (toetsen) hoge cijfers haalden. Dit paper zegt: "Die cijfers liegen." De robots zijn net als een acteur die zijn tekst uit zijn hoofd heeft geleerd, maar als de regisseur de scène verandert, weet hij niet meer wat hij moet doen.

Samengevat in één zin:
Deze paper toont aan dat onze slimste robots eigenlijk "doof" zijn voor taal en alleen kijken naar beelden, en dat we een nieuwe manier nodig hebben om ze echt te leren luisteren, niet alleen te laten oefenen.

De auteurs hopen dat hun nieuwe test (LangGap) een standaard wordt, zodat we in de toekomst robots bouwen die écht begrijpen wat we zeggen, zelfs als de situatie verandert.

Each language version is independently generated for its own context, not a direct translation.

Titel: LangGap: Het diagnosticeren en dichten van de taalkloof in Vision-Language-Action (VLA) modellen

Auteurs: Yuchen Hou en Lin Zhao (National University of Singapore)

1. Het Probleem

Hoewel Vision-Language-Action (VLA) modellen zoals $\pi0.5$ op standaard benchmarks (zoals LIBERO) succespercentages van meer dan 95% behalen, suggereert groeiend bewijs dat deze modellen taal-instructies grotendeels negeren. In plaats van te vertrouwen op semantisch taalbegrip, maken ze gebruik van visuele shortcuts (korte weggetjes).

Huidige tekortkomingen: Bestaande benchmarks zoals LIBERO wijzen vaak slechts één taak toe per visuele lay-out. Hierdoor kunnen modellen taken voltooien door visuele memorisatie in plaats van taalbegrip (dezelfde visuele input leidt altijd tot dezelfde actie).
Diagnostische lacunes: Eerdere studies beperken zich vaak tot oppervlakkige paraphrasing-tests of geven slechts grove conclusies ("taal wordt genegeerd") zonder inzicht in welke specifieke semantische componenten (bijv. objectnamen, locaties, ruimtelijke relaties) falen.
Oorzaak: Een gebrek aan linguïstische diversiteit in de trainingsdata leidt tot "modality imbalance", waarbij het model leert om taalsignalen te negeren.

2. Methodologie

Het paper introduceert een systematische aanpak bestaande uit drie pijlers: diagnose, benchmark en training.

A. Semantische Perturbatie Framework (Diagnose)

De auteurs ontwerpen een evaluatieframework waarbij de visuele lay-out van de tafel identiek blijft, maar de taal-instructie wordt gevarieerd langs vier orthogonale dimensies:

Change Object Category: Verandering van het object (bijv. "pak kom" $\rightarrow$ "pakt ramekin").
Change Target: Verandering van de doellocatie (bijv. "plaats op bord" $\rightarrow$ "plaats op fornuis").
Spatial Description: Onderscheid tussen objecten van hetzelfde type via ruimtelijke beschrijvingen (bijv. "de kom rechts van de ramekin").
Drawer Action: Verandering van het actie-type (bijv. "zet kom" $\rightarrow$ "open lade").

Dit creëert genuanceerde taken die visueel identiek zijn maar semantisch verschillend, waardoor modellen gedwongen worden om taal te begrijpen in plaats van te memoriseren.

B. De LangGap Benchmark

Op basis van de diagnostische bevindingen is de LangGap-benchmark geconstrueerd:

Omvang: 99 taken (40 originele LIBERO-taken + 59 uitgebreide, semantisch gevarieerde taken).
Ontwerpprincipe: "Same-scene multi-task". Meerdere taken delen exact dezelfde initiële visuele staat. Een model dat taal negeert kan deze taken niet onderscheiden en zou theoretisch slechts $1/k$ succes hebben (waarbij $k$ het aantal taken per scène is).
Data-split: Training en testdata zijn gesplitst op instructieniveau, zodat testinstructies nooit tijdens het trainen zijn gezien, maar wel in dezelfde visuele omgeving plaatsvinden.

C. Training en Validatie

De auteurs testen of gerichte data-augmentatie de kloof kan dichten zonder architecturale wijzigingen.

Model: Fine-tuning van $\pi0.5$ met LoRA.
Strategie: Progressieve experimenten met toenemende schaal (van single-task tot multi-suite training), waarbij wordt vergeleken tussen training met alleen uitgebreide data versus een mix van originele en uitgebreide data.

3. Belangrijkste Bijdragen

Diagnostische Taxonomie: Een vier-dimensionale semantische perturbatiemethode die blootlegt dat VLA-modellen verschillende foutpatronen vertonen per semantische dimensie (bijv. volledig falen op doellocaties vs. gedeeltelijk succes op objectnamen).
LangGap Benchmark: De eerste VLA-evaluatie die per ontwerp taalafhankelijkheid afdwingt door visuele shortcuts te elimineren via identieke scènes met diverse instructies.
Empirische Validatie: Bewijs dat gerichte data-augmentatie de kloof tijdelijk kan dichten, maar dat de leercapaciteit van huidige modellen ernstig tekortschiet bij toenemende semantische diversiteit.

4. Resultaten

De experimentele resultaten tonen een schokkend beeld van de huidige staat van VLA-modellen:

Diagnostische Bevindingen:
- Originele taken: $\pi0.5$ behaalt 93,8% succes.
- Semantische perturbaties: Het succes daalt naar 21,4%.
- Dimensie-specifiek:
  - Change Target: 0,0% succes (het model negeert doellocaties volledig).
  - Spatial Description: 11,0%.
  - Change Object: 29,3%.
  - Drawer Action: 31,7%.
- Dit toont aan dat het model geen compositional understanding heeft; het faalt volledig bij het begrijpen van ruimtelijke doelen.
Trainingseffecten:
- Single-task training: Kan het succes van een specifieke taak van 0% naar 90% brengen, wat aantoont dat het model kan leren, maar niet generaliseert.
- Multi-task training (schaal-effect):
  - Bij training op 6 taken (alleen uitgebreide data) daalt het succes op uitgebreide taken naar 28%.
  - Bij toevoegen van originele data (45-taken totaal) daalt het succes op de uitgebreide taken verder naar 4% (verwateringseffect).
  - Bij training op 16 uitgebreide taken (zonder originele data) daalt het succes zelfs van een baseline van 26% naar 6,2%, omdat het model zijn patroonherkenning voor bekende taken verliest.
- Conclusie: Het simpelweg toevoegen van meer data met dezelfde visuele lay-out lost het probleem niet op. Naarmate de semantische diversiteit toeneemt, faalt het model in het opbouwen van een generaliseerbaar taalbegrip.

5. Betekenis en Conclusie

Het paper concludeert dat er een fundamentele uitdaging bestaat voor VLA-modellen in het begrijpen van diverse taal-instructies.

Beperkingen van huidige modellen: Huidige VLA-modellen vertrouwen te sterk op visuele correlaties en hebben moeite om taal als het primaire discriminatieve signaal te gebruiken, vooral bij complexe ruimtelijke relaties.
Toekomstige richting: Het oplossen van dit probleem vereist niet alleen meer data, maar waarschijnlijk ook nieuwe modelarchitecturen en trainingsstrategieën die specifiek gericht zijn op het balanceren van modaliteiten en het afdwingen van taalafhankelijkheid.
LangGap als resource: De LangGap-benchmark biedt een langdurig evaluatiekader dat niet snel verzadigt, waardoor het een waardevol hulpmiddel is voor de toekomstige ontwikkeling van robuuste, taal-bewuste robotica.

Kortom, terwijl VLA-modellen indrukwekkend presteren op standaard tests, onthult LangGap dat hun "intelligentie" vaak een illusie is gebaseerd op visuele memorisatie, en dat echte taalbegrip nog een aanzienlijke stap voorwaarts vereist.