VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak te doen, zoals koffie zetten met een mokapot. De meeste robots die we vandaag de dag hebben, werken als een automatische afwasmachine: ze kijken één keer naar de situatie, denken even na (of beter gezegd: ze kijken naar een vaststaande lijst met instructies) en doen dan hun werk. Als ze halverwege iets verkeerd doen of als de koffiepot net net iets anders staat dan verwacht, raken ze in de war en kunnen ze niet meer verder. Ze kunnen niet "terugkijken" of "scherper kijken".

VLA-Thinker is een nieuwe, slimme robot die leert om te denken terwijl hij kijkt. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Eén-Kijk" Robot

Stel je voor dat je een blindganger bent die een kamer moet opruimen. Je krijgt een foto van de kamer, maar die foto is oud en wazig. Je moet nu een hele kamer opruimen zonder ooit nog naar de kamer te mogen kijken.

De oude robots doen precies dit. Ze krijgen één beeld, zetten dat in hun hoofd, en proberen alles te doen op basis van dat ene moment. Als de koffiepot verschuift of als ze de knop van het fornuis niet goed zien, maken ze een fout en stoppen ze. Ze kunnen niet zeggen: "Wacht even, ik zie de knop niet goed, ik moet even inzoomen."

2. De oplossing: De "Denkende" Robot (VLA-Thinker)

VLA-Thinker is als een detective die een moordzaak oplost.

Een detective kijkt niet alleen één keer naar de plaats delict. Hij loopt rond, kijkt scherp naar een verdachte, pakt een vergrootglas (een tool) om een klein detail te zien, en denkt dan weer na over wat hij ziet.
VLA-Thinker doet hetzelfde. Hij denkt niet alleen in woorden ("Ik moet de koffie zetten"), maar hij gebruikt zijn ogen als een actief gereedschap.
- Hij denkt: "Ik moet de knop draaien."
- Hij kijkt: "Hm, ik zie de knop niet goed genoeg."
- Hij roept een tool op (in dit geval: "Zoom in"): Bing! Plotseling ziet hij de knop heel duidelijk.
- Hij denkt opnieuw: "Ah, nu zie ik hem! Ik draai hem nu."
- Hij voert de actie uit.

Dit noemen ze "Thinking-with-Image": denken met beeld. De robot kan tijdens het denken zelf beslissen om de camera in te zoomen of een ander deel van de kamer te bekijken om twijfels weg te nemen.

3. Hoe leren we dit? (De Twee-Stappen Training)

Je kunt een robot niet zomaar verwachten dat hij dit kan. Je moet hem twee dingen leren, net zoals je een kind leert fietsen:

Stap 1: De "Oefenronde" (SFT Cold Start)
Eerst laten we de robot kijken naar duizenden voorbeelden van slimme mensen die een taak doen. We laten hem zien hoe ze nadenken, waar ze inzoomen en wat ze doen. Het is alsof we hem een script geven met de beste manieren om te denken en te kijken. Hij leert de vorm van het denken: "Als ik twijfel, moet ik inzoomen."
Stap 2: De "Proefronde" (GRPO Reinforcement Learning)
Nu is het tijd om echt te oefenen. We laten de robot de taak zelf doen, maar we geven hem geen directe instructies. We zeggen alleen: "Gefeliciteerd, je hebt het gedaan!" (beloning) of "Nee, dat was fout" (geen beloning).
- De robot probeert veel verschillende manieren. Soms zoomt hij te veel in (verlies van tijd), soms te weinig (fout).
- Door duizenden pogingen te doen, leert hij vanzelf: "Ah, ik hoef niet altijd in te zoomen. Alleen als ik het echt niet weet."
- Hij leert de balans vinden tussen "nadenken/kijken" en "doen".

Waarom is dit zo cool?

In de echte wereld zijn dingen nooit perfect. Licht verandert, objecten verschuiven, en dingen zijn soms verborgen.

De oude robots vallen snel uit als de situatie niet precies overeenkomt met hun "één keer kijken".
VLA-Thinker is veerkrachtig. Als hij vastloopt, kan hij zeggen: "Wacht, laat me even beter kijken," en zo de fout corrigeren voordat het te laat is.

Kortom: VLA-Thinker is de eerste robot die leert dat kijken een onderdeel is van het denken. Hij is niet meer een passieve kijker, maar een actieve onderzoeker die zijn eigen ogen gebruikt om problemen op te lossen, net als een mens. Hierdoor kan hij veel langere en moeilijkere taken uitvoeren, zoals het stapelen van borden of het bedienen van een fornuis, zonder te falen.

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

1. Het oude probleem: De "Eén-Kijk" Robot

2. De oplossing: De "Denkende" Robot (VLA-Thinker)

3. Hoe leren we dit? (De Twee-Stappen Training)

Waarom is dit zo cool?

Probleemstelling

Methodologie: VLA-Thinker

1. Kernarchitectuur: Interleaved Perception-Reasoning-Action

2. Tweestaps Trainingsstrategie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

1. Het oude probleem: De "Eén-Kijk" Robot

2. De oplossing: De "Denkende" Robot (VLA-Thinker)

3. Hoe leren we dit? (De Twee-Stappen Training)

Waarom is dit zo cool?

Probleemstelling

Methodologie: VLA-Thinker

1. Kernarchitectuur: Interleaved Perception-Reasoning-Action

2. Tweestaps Trainingsstrategie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers