Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot hebt die heel goed kan kijken naar foto's en tekeningen, maar als je hem een lastige wiskundevraag stelt die bij die foto hoort, geeft hij vaak een kort, vluchtig antwoord zonder echt na te denken. Hij kijkt, raadt en hoopt dat het goed is. Dit is het probleem met de meeste huidige "Multimodale Large Language Models" (MLLM's): ze zijn goed in zien, maar slecht in redeneren.

De auteurs van dit paper (Vision-R1) wilden deze robot leren om net als een mens na te denken: twijfelen, terugkijken, fouten maken en dan het juiste antwoord vinden. Ze noemen hun oplossing Vision-R1.

Hier is hoe ze dat gedaan hebben, vertaald in alledaags taal met een paar creatieve vergelijkingen:

1. Het probleem: De "Directe Goochelaar"

Stel je voor dat je een student hebt die altijd direct het antwoord schreeuwt zonder de som op te lossen. Als je hem dwingt om langer na te denken (door een beloningssysteem, oftewel Reinforcement Learning), begint hij vaak te mopperen of te dwalen. Hij denkt te lang na over de verkeerde dingen. In het paper noemen ze dit "Overthinking" (te veel nadenken). De robot begint te kletsen in plaats van te redeneren, en dat maakt hem juist dommer.

2. De Oplossing: Een drie-stappen plan

De auteurs hebben een slimme route bedacht om deze robot te trainen. Het is alsof je een kind leert fietsen, maar dan in drie fases:

Stap 1: De "Tussenstap" (Modality Bridging)

De robot kan niet direct goed redeneren over plaatjes. Dus, ze gebruiken een tussenpersoon.

De Analogie: Stel je voor dat je een schilderij hebt (het plaatje) en een filosoof (een heel slimme tekst-robot genaamd DeepSeek-R1). De filosoof kan geen schilderijen zien.
De truc: Eerst laat je een andere robot het schilderij beschrijven, maar dan niet zomaar. Hij beschrijft het alsof hij naait en dubbelcheckt terwijl hij kijkt ("Oh, wacht, die lijn is hier..."). Dit noemen ze "Pseudo-CoT" (nep-redenering die eruit ziet als echt denken).
Dan geven ze die beschrijving aan de filosoof. Omdat de filosoof nu een heel gedetailleerd verhaal heeft, kan hij een perfect, menselijk redeneringsproces schrijven.
Het resultaat: Ze hebben zo een boekje gemaakt met 200.000 voorbeelden van hoe een mens zou nadenken over plaatjes. Dit is hun "koude start" (Cold Start).

Stap 2: De "Koude Start" (Cold-Start Initialization)

Nu nemen ze hun eigen robot en laten hem dit boekje van 200.000 voorbeelden lezen.

De Analogie: Het is alsof je de robot een jaar lang laat studeren met een heel goed leraar. Hij leert nu hoe hij moet denken, niet alleen wat het antwoord is. Hij leert vragen te stellen aan zichzelf: "Wacht even, klopt dat wel?" of "Misschien moet ik het anders proberen."
Na deze studie is de robot klaar om te beginnen met zijn eigen training, maar hij heeft nog een probleem: hij is nu te voorzichtig en denkt soms te lang na over simpele dingen.

Stap 3: De "Rem en Gas" (Progressive Thinking Suppression Training - PTST)

Dit is het meest creatieve deel. De robot neigt nu naar "Overthinking" (te veel kletsen).

De Analogie: Stel je voor dat je een auto rijdt die te snel wil gaan in een bocht. Als je hem direct de volle kracht geeft, crasht hij.
De oplossing: De auteurs gebruiken een slimme rem.
1. Fase 1: Ze zeggen tegen de robot: "Je mag niet langer dan 4.000 woorden denken." Hij moet kort en krachtig zijn. Dit dwingt hem om de juiste gedachten te kiezen en de onnodige klets te laten vallen.
2. Fase 2: Zodra hij de juiste manier van denken heeft ingesleten, zeggen ze: "Oké, nu mag je iets langer denken (8.000 woorden), maar alleen als het nodig is voor moeilijke problemen."
Het effect: De robot leert eerst goed te denken, en pas daarna lang te denken. Hij wordt niet meer afgeleid door zijn eigen gedachten.

3. Het resultaat: Een kleine reus

Het mooiste aan dit paper is dat ze dit deden met een model dat maar 7 miljard parameters groot is (een "kleine" robot).

De Vergelijking: Het is alsof een kleine, slimme student (Vision-R1-7B) net zo goed scoort op wiskundetoetsen als een gigantische professor (OpenAI O1 of modellen van 70+ miljard parameters).
Ze behaalden een score van 73,5% op de beroemde MathVista-toets, wat slechts 0,4% lager is dan de allerbeste AI ter wereld (OpenAI O1).
Als ze het model groter maakten (32B en 72B parameters), werden ze zelfs nog beter.

Samenvatting

De kernboodschap is: Je kunt een robot niet zomaar dwingen om slim na te denken door hem alleen te straffen of te belonen. Je moet hem eerst een goed voorbeeld geven (de 200k dataset) en hem dan geleidelijk aan leren hoe hij zijn gedachten moet structureren (de rem en gas strategie).

Vision-R1 is dus de eerste robot die echt leert om te twijfelen, te reflecteren en complexe visuele puzzels op te lossen, net als een mens, zonder dat hij daarvoor een menselijke leraar nodig heeft om elke stap te schrijven. Ze hebben de "geest" van het denken in de robot geactiveerd.

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

1. Het probleem: De "Directe Goochelaar"

2. De Oplossing: Een drie-stappen plan

Stap 1: De "Tussenstap" (Modality Bridging)

Stap 2: De "Koude Start" (Cold-Start Initialization)

Stap 3: De "Rem en Gas" (Progressive Thinking Suppression Training - PTST)

3. Het resultaat: Een kleine reus

Samenvatting

Kernbijdragen

Resultaten

Betekenis en Impact

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

1. Het probleem: De "Directe Goochelaar"

2. De Oplossing: Een drie-stappen plan

Stap 1: De "Tussenstap" (Modality Bridging)

Stap 2: De "Koude Start" (Cold-Start Initialization)

Stap 3: De "Rem en Gas" (Progressive Thinking Suppression Training - PTST)

3. Het resultaat: Een kleine reus

Samenvatting

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics