VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

Dit paper introduceert VLA-Thinker, een nieuw framework dat Vision-Language-Action-modellen verbetert door visuele waarneming te modelleren als een dynamische redeneeractie, wat via een twee-staps trainingsproces leidt tot aanzienlijk betere prestaties in langdurige robotmanipulatietaken.

Chaoyang Wang, Wenrui Bao, Sicheng Gao, Bingxin Xu, Yu Tian, Yogesh S. Rawat, Yunhao Ge, Yuzhang Shang

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak te doen, zoals koffie zetten met een mokapot. De meeste robots die we vandaag de dag hebben, werken als een automatische afwasmachine: ze kijken één keer naar de situatie, denken even na (of beter gezegd: ze kijken naar een vaststaande lijst met instructies) en doen dan hun werk. Als ze halverwege iets verkeerd doen of als de koffiepot net net iets anders staat dan verwacht, raken ze in de war en kunnen ze niet meer verder. Ze kunnen niet "terugkijken" of "scherper kijken".

VLA-Thinker is een nieuwe, slimme robot die leert om te denken terwijl hij kijkt. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Eén-Kijk" Robot

Stel je voor dat je een blindganger bent die een kamer moet opruimen. Je krijgt een foto van de kamer, maar die foto is oud en wazig. Je moet nu een hele kamer opruimen zonder ooit nog naar de kamer te mogen kijken.

  • De oude robots doen precies dit. Ze krijgen één beeld, zetten dat in hun hoofd, en proberen alles te doen op basis van dat ene moment. Als de koffiepot verschuift of als ze de knop van het fornuis niet goed zien, maken ze een fout en stoppen ze. Ze kunnen niet zeggen: "Wacht even, ik zie de knop niet goed, ik moet even inzoomen."

2. De oplossing: De "Denkende" Robot (VLA-Thinker)

VLA-Thinker is als een detective die een moordzaak oplost.

  • Een detective kijkt niet alleen één keer naar de plaats delict. Hij loopt rond, kijkt scherp naar een verdachte, pakt een vergrootglas (een tool) om een klein detail te zien, en denkt dan weer na over wat hij ziet.
  • VLA-Thinker doet hetzelfde. Hij denkt niet alleen in woorden ("Ik moet de koffie zetten"), maar hij gebruikt zijn ogen als een actief gereedschap.
    • Hij denkt: "Ik moet de knop draaien."
    • Hij kijkt: "Hm, ik zie de knop niet goed genoeg."
    • Hij roept een tool op (in dit geval: "Zoom in"): Bing! Plotseling ziet hij de knop heel duidelijk.
    • Hij denkt opnieuw: "Ah, nu zie ik hem! Ik draai hem nu."
    • Hij voert de actie uit.

Dit noemen ze "Thinking-with-Image": denken met beeld. De robot kan tijdens het denken zelf beslissen om de camera in te zoomen of een ander deel van de kamer te bekijken om twijfels weg te nemen.

3. Hoe leren we dit? (De Twee-Stappen Training)

Je kunt een robot niet zomaar verwachten dat hij dit kan. Je moet hem twee dingen leren, net zoals je een kind leert fietsen:

  • Stap 1: De "Oefenronde" (SFT Cold Start)
    Eerst laten we de robot kijken naar duizenden voorbeelden van slimme mensen die een taak doen. We laten hem zien hoe ze nadenken, waar ze inzoomen en wat ze doen. Het is alsof we hem een script geven met de beste manieren om te denken en te kijken. Hij leert de vorm van het denken: "Als ik twijfel, moet ik inzoomen."

  • Stap 2: De "Proefronde" (GRPO Reinforcement Learning)
    Nu is het tijd om echt te oefenen. We laten de robot de taak zelf doen, maar we geven hem geen directe instructies. We zeggen alleen: "Gefeliciteerd, je hebt het gedaan!" (beloning) of "Nee, dat was fout" (geen beloning).

    • De robot probeert veel verschillende manieren. Soms zoomt hij te veel in (verlies van tijd), soms te weinig (fout).
    • Door duizenden pogingen te doen, leert hij vanzelf: "Ah, ik hoef niet altijd in te zoomen. Alleen als ik het echt niet weet."
    • Hij leert de balans vinden tussen "nadenken/kijken" en "doen".

Waarom is dit zo cool?

In de echte wereld zijn dingen nooit perfect. Licht verandert, objecten verschuiven, en dingen zijn soms verborgen.

  • De oude robots vallen snel uit als de situatie niet precies overeenkomt met hun "één keer kijken".
  • VLA-Thinker is veerkrachtig. Als hij vastloopt, kan hij zeggen: "Wacht, laat me even beter kijken," en zo de fout corrigeren voordat het te laat is.

Kortom: VLA-Thinker is de eerste robot die leert dat kijken een onderdeel is van het denken. Hij is niet meer een passieve kijker, maar een actieve onderzoeker die zijn eigen ogen gebruikt om problemen op te lossen, net als een mens. Hierdoor kan hij veel langere en moeilijkere taken uitvoeren, zoals het stapelen van borden of het bedienen van een fornuis, zonder te falen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →