When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Deze paper introduceert LIBERO-CF, het eerste benchmark voor het evalueren van tegenstrijdige fouten in Vision-Language-Action-modellen, en presenteert Counterfactual Action Guidance (CAG), een trainingsvrije methode die de taalvolging en taalsucces van robots verbetert door visuele shortcuts te verminderen.

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

Gepubliceerd 2026-02-20
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🤖 Robots die "in de war" raken: Waarom slimme robots soms niet luisteren

Stel je voor dat je een superintelligente robot hebt die je kunt besturen met je stem. Je zegt: "Pak die gele mosterdpot op." Maar de robot pakt steevast de rode bierfles, omdat hij dat de afgelopen 100 keer heeft gedaan. Hij kijkt wel naar de mosterd, maar zijn hersenen zeggen: "Nee, nee, we pakken altijd de fles!"

Dit is precies het probleem dat deze wetenschappers hebben ontdekt bij moderne robots die VLAs (Vision-Language-Action modellen) worden genoemd.

1. Het Probleem: De "Visuele Kortsluiting"

Deze robots zijn getraind met enorme hoeveelheden video's van mensen die taken uitvoeren. Het probleem is dat ze vaak te veel vertrouwen op wat ze zien en te weinig op wat ze horen.

  • De Analogie: Stel je voor dat je een student hebt die elke dag dezelfde route naar school loopt. Als je hem vraagt: "Ga vandaag naar de bibliotheek," maar de bibliotheek staat precies op de plek waar hij normaal gesproken de bus pakt, loopt hij toch naar de bushalte. Hij kijkt wel naar de kaart (de instructie), maar zijn gewoonte (het visuele beeld van de bushalte) is zo sterk dat hij de instructie negeert.
  • In de paper: Dit noemen ze "Counterfactual Failures" (tegenstrijdige fouten). De robot ziet een object dat hij kent (bijv. tape), maar als jij zegt "pakt de mosterd", pakt hij toch de tape, omdat hij in zijn training vaak tape heeft gepakt in die specifieke situatie. Hij neemt een "visuele kortsluiting" en negeert je stem.

2. De Nieuwe Test: LIBERO-CF

Om dit probleem te meten, hebben de onderzoekers een nieuwe test ontwikkeld, genaamd LIBERO-CF.

  • De Analogie: Het is alsof je een rijbewijstest geeft, maar dan met een twist. Normaal gesproken moet je rechtsaf slaan. Maar in deze test zeggen we: "Sla linksaf," terwijl je op een kruispunt staat waar je normaal altijd rechtsaf slaat.
  • Het doel: Ze kijken of de robot echt luistert naar "Linksaf" of dat hij automatisch "Rechtsaf" blijft doen omdat dat de enige route is die hij kent. Ze hebben meer dan 50 nieuwe situaties bedacht waarin robots faalden: ze pakten het verkeerde object, negeerden de locatie, of deden de verkeerde handeling, zelfs als ze perfect zagen wat er aan de hand was.

3. De Oplossing: CAG (De "Twee-Oren" Methode)

De onderzoekers hebben een slimme oplossing bedacht om dit op te lossen, genaamd Counterfactual Action Guidance (CAG).

  • De Analogie: Stel je voor dat je een robot hebt met twee hersenstromen:

    1. De "Gewoonte-Robot": Deze kijkt alleen naar de kamer en zegt: "Ik zie tape, dus ik pak tape." (Hij negeert je stem).
    2. De "Luister-Robot": Deze kijkt naar de kamer én luistert naar je stem en zegt: "Je zegt mosterd, dus ik moet mosterd pakken."

    CAG werkt als een slimme manager: Hij laat beide robots een beslissing nemen. Vervolgens vergelijkt hij de twee:

    • Gewoonte-Robot: "Pak tape."
    • Luister-Robot: "Pak mosterd."

    De manager zegt dan: "Oké, de gewoonte zegt tape, maar de instructie zegt mosterd. Laten we de 'mosterd-idee' versterken en de 'tape-idee' wat afzwakken."

    Technisch gezien combineert CAG de standaard robot met een versie die geen instructies krijgt (alleen visie). Door het verschil tussen deze twee te meten, kan de robot leren om zijn aandacht weer te richten op wat jij zegt, in plaats van alleen naar de objecten te staren.

4. De Resultaten: Het Werkt!

De onderzoekers hebben dit getest in computersimulaties en in de echte wereld met een echte robotarm.

  • Zonder CAG: De robot negeerde vaak de instructie. Als je "Pak de mosterd" zei, pakte hij de tape (die hij vaker had gepakt).
  • Met CAG: De robot luisterde veel beter. Hij pakte de mosterd, zelfs als de tape in de weg zat.
  • Het mooie detail: Ze hoefden de robot niet opnieuw te leren (geen extra training nodig). Ze veranderden alleen hoe de robot beslissingen nam op het moment dat hij werkte. Het is alsof je een bril opzet die de wereld helderder maakt, zonder je hersenen te herschrijven.

Samenvatting in één zin

Deze paper laat zien dat robots soms te veel naar hun omgeving staren en te weinig naar je stem luisteren, maar met een slimme truc (CAG) kunnen we ze leren om weer echt naar jou te kijken en te luisteren, zelfs als hun oude gewoonten ze in de weg staan.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →