VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

VTool-R1 is het eerste framework dat visueel-taalmodellen via versterkingsleer traint om strategisch Python-visualisatietools te gebruiken voor het genereren van multimodale denkstappen, waardoor ze effectiever kunnen redeneren door te "denken met afbeeldingen".

Mingyuan Wu, Jingcheng Yang, Jize Jiang, Meitang Li, Kaizhuo Yan, Hanchao Yu, Minjia Zhang, Chengxiang Zhai, Klara Nahrstedt

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

VTOOL-R1: Hoe een AI leert "nadenken met zijn ogen"

Stel je voor dat je een slimme robot hebt die heel goed kan lezen en schrijven, maar als je hem een foto laat zien, blijft hij steken in zijn eigen hoofd. Hij probeert het antwoord te raden op basis van wat hij denkt dat er op de foto staat, in plaats van echt naar de foto te kijken.

Dit is precies het probleem dat het nieuwe onderzoek VTOOL-R1 probeert op te lossen. Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. Het Probleem: De "Gokker"

Stel je voor dat je een robot vraagt: "Hoeveel vingers heeft deze hand op de foto?"
Op de foto heeft de hand zes vingers. Maar omdat de robot in zijn hoofd leert dat "een hand altijd vijf vingers heeft", roept hij direct "vijf!" zonder echt naar de foto te kijken. Hij vertrouwt op zijn tekst-kennis in plaats van op het visuele bewijs.

Eerdere methoden probeerden dit op te lossen door de robot te laten "tekenen" of te laten "schetsen" terwijl hij antwoordt (zoals een Visual Sketchpad). Maar dat werkte alleen als de robot al heel slim was. Als je een kleinere, goedkopere robot gebruikte, kon hij die tekeningen niet maken.

2. De Oplossing: De "Werkbank"

VTOOL-R1 introduceert een nieuw idee: Laat de robot een gereedschap gebruiken.

In plaats van dat de robot alleen maar tekst produceert, leert VTOOL-R1 de robot om een Python-programma te schrijven dat de foto bewerkt.

  • De Analogie: Stel je voor dat de robot een detective is die een vergrootglas en een stift heeft. Als hij een vraag krijgt over een ingewikkelde grafiek, zegt hij niet direct "Het antwoord is X". Hij zegt eerst: "Ik ga even die ene kolom in de tabel rood markeren en de rest zwart maken, zodat ik beter kan zien."
  • De computer voert dit commando uit, maakt een nieuwe foto (met de rode streep erop), en geeft die aan de robot terug.
  • De robot kijkt dan naar die nieuwe foto en zegt pas daarna: "Ah, nu ik die rode streep zie, is het antwoord duidelijk!"

3. De Leermethode: "Probeer het maar uit" (Reinforcement Learning)

Hoe leer je een robot om dit slim te doen zonder hem stap-voor-stap te vertellen wat hij moet doen? Dat doen ze met Reinforcement Learning (Versterkende Leer).

  • De Oefening: De robot krijgt duizenden vragen over grafieken en tabellen.
  • De Beloning: De robot krijgt geen punten voor het maken van een mooie tekening of het schrijven van veel tekst. Hij krijgt alleen punten als het eindantwoord klopt.
  • Het Resultaat: De robot ontdekt vanzelf: "Als ik de foto niet bewerkt, raak ik de fout. Als ik een tool gebruik om de foto te 'schonen' of te 'markeren', krijg ik het juiste antwoord en punten."

Het is alsof je een kind leert fietsen door te zeggen: "Als je op de finishlijn aankomt, krijg je een ijsje." Het kind leert dan vanzelf hoe hij moet trappen, balanceren en sturen, zonder dat jij elke spierbeweging hoeft uit te leggen.

4. Waarom is dit speciaal?

Tot nu toe konden AI-modellen alleen "nadenken" met woorden. VTOOL-R1 is de eerste die leert om tussen de woorden door ook met beelden te denken.

  • Vroeger: De robot zag een foto, dacht erover na in tekst, en gaf een antwoord.
  • Nu (met VTOOL-R1): De robot ziet een foto, denkt: "Ik heb een hulpmiddel nodig", gebruikt een tool om de foto te wijzigen, kijkt naar de gewijzigde foto, en geeft dan pas het antwoord.

Samenvatting

VTOOL-R1 is een trainingsmethode die visuele AI-modellen leert om actief te werken met hun "ogen". Ze leren niet alleen te kijken, maar ook om hun eigen kijkervaring te verbeteren door de foto te bewerken (zoals een fotograaf die een foto cropt of de kleuren aanpast) voordat ze een conclusie trekken.

Dit zorgt ervoor dat AI-modellen veel beter worden in het oplossen van complexe puzzels met grafieken, tabellen en kaarten, omdat ze leren om niet te gokken, maar om te kijken, te bewerken en pas dan te antwoorden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →