RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

De Reisplanner die Eindelijk de Stad Begrijpt: Een Uitleg van "RewardMap"

Stel je voor dat je een superintelligente robot hebt die alles kan lezen en zien. Deze robot is een meester in het beantwoorden van vragen over tekst. Maar als je hem een metrokaart geeft en vraagt: "Hoe kom ik van Station A naar Station B zonder te verdwalen?", dan raakt hij in paniek. Hij ziet de lijnen, maar hij begrijpt niet hoe ze met elkaar verbonden zijn. Hij raakt de weg kwijt, maakt fouten of verzonnt zelfs stations die er niet zijn. Dit is het probleem dat multimodale grote taalmodellen (MLLMs) hebben met fijnmazig visueel redeneren.

De auteurs van dit paper, gepubliceerd bij ICLR 2026, hebben een oplossing bedacht genaamd REWARDMAP. Laten we kijken hoe dit werkt, zonder de ingewikkelde wiskunde.

1. Het Probleem: De "Donkere Tunnel" van de Leerling

Stel je voor dat je iemand leert fietsen in een donkere tunnel. Je zegt: "Fiets maar, en als je aan het einde bent, krijg je een snoepje."

Het probleem: De leerling fietst urenlang in het donker. Hij weet niet of hij goed zit of fout. Als hij pas aan het einde een snoepje krijgt (of niet), is het heel moeilijk om te leren waar hij precies de fout maakte.
In de AI-wereld: Dit heet spare rewards (zeldzame beloningen). Bij complexe taken zoals een route plannen op een kaart, krijgt het model pas aan het allerlaatste stukje feedback of het goed was. In het midden van het proces (bij het lezen van de kaart) krijgt het geen hulp. Daardoor leert het model niet goed en wordt het trainingproces instabiel.

2. De Oplossing: Een Nieuwe Trainingsmap (REASONMAP-PLUS)

De onderzoekers dachten: "Laten we de leerling niet in het donker laten fietsen."
Ze bouwden een nieuwe, uitgebreide dataset genaamd REASONMAP-PLUS.

De Analogie: In plaats van alleen de moeilijke routeplanning te oefenen, beginnen ze met simpele oefeningen.
- Stap 1: "Hoeveel lijnen zie je op deze kaart?" (Een simpele telling).
- Stap 2: "Zit station X op lijn Y?" (Een ja/nee vraag).
- Stap 3: "Hoeveel haltes zitten er tussen A en B?"
Het effect: Hierdoor krijgt het model veel meer feedback (dichte beloningen). Het leert eerst de kaart goed te lezen voordat het de moeilijke routeplanning aanpakt. Het is alsof je eerst leert de fiets te balanceren voordat je de berg op fietst.

3. De Motor: REWARDMAP (De Slimme Trainer)

Nu hebben ze een goede trainingsmap, maar ze hebben ook een slimme trainer nodig. Dat is REWARDMAP. Dit systeem heeft twee magische trucs:

Truc 1: De "Detail-Bonus" (Geen Alles-of-Niets)

Stel, je vraagt een leerling: "Wat is de route van A naar B?"

Oude manier: Als het antwoord niet 100% perfect is, krijgt hij een 0.
REWARDMAP manier: De trainer kijkt naar de details.
- "Goed gedaan dat je de juiste startlijn hebt gevonden!" (+1 punt).
- "Fijn dat je de overstap goed hebt gezien!" (+1 punt).
- "Jammer dat je het eindstation verkeerd had, maar je bent op de goede weg."
Waarom dit werkt: Zelfs als het antwoord niet perfect is, krijgt het model kleine beloningen voor de goede stukjes. Dit houdt de motivatie (de leercurve) hoog en voorkomt dat het model in de war raakt.

Truc 2: De "Stap-voor-Stap" Methode (Multi-Stage RL)

In plaats van alles door elkaar te gooien, volgt het model een strakke planning:

Eerst de simpele dingen: Oefenen met tellen en ja/nee-vragen op makkelijke kaarten.
Dan de moeilijker dingen: Oefenen met routeplanning op moeilijke kaarten.
Tot slot de meester: De echte complexe routes plannen.

Dit heet een curriculum (een leerplan). Het zorgt ervoor dat het model niet overweldigd raakt door de moeilijkheid, maar stap voor stap groeit.

4. Het Resultaat: Een Meester in de Stad

Toen ze dit systeem testten, gebeurde er iets moois:

De modellen werden veel beter in het lezen van metrokaarten. Ze maakten minder fouten en verzonnen geen stations meer.
Maar het beste was: Ze werden ook slimmer in andere dingen. Omdat ze hadden geleerd om goed naar details te kijken op de kaart, werden ze ook beter in het lezen van grafieken, het vinden van objecten op foto's en het oplossen van andere visuele puzzels.

Samenvatting in één zin

REWARDMAP is als een geduldige fietsleraar die je eerst laat oefenen op een vlakke weg met veel kleine complimentjes voor elke goede beweging, zodat je uiteindelijk veilig en zelfverzekerd de steile berg op kunt fietsen, zonder ooit in het donker te raken.

Het paper toont aan dat door slimme beloningen en een goede leervolgorde, zelfs de slimste AI's eindelijk kunnen leren hoe ze de complexe wereld om hen heen echt moeten begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De kernuitdaging die dit paper adresseert, is het vermogen van Multimodale Grootte Taalmodellen (MLLMs) om fijne-granulariteit visuele redenering uit te voeren op gestructureerde visuele inputs, specifiek op transitkaarten (zoals metro- en treinnetwerken). Hoewel MLLMs vooruitgang hebben geboekt, blijken ze moeite te hebben met ruimtelijke redenering in complexe, informatierijke omgevingen.

Het bestaande benchmark REASONMAP toonde aan dat zelfs geavanceerde modellen falen bij taken zoals routeplanning. De belangrijkste beperking bij het toepassen van Versterkend Leren (RL) op deze taken is het probleem van spare beloningen (sparse rewards):

Bij complexe redeneertaken (zoals het vinden van een route) wordt de correctheid vaak pas aan het einde van een lange redeneerketen beoordeeld.
Dit leidt tot instabiele optimalisatie en maakt effectieve exploratie moeilijk, omdat het model weinig feedback krijgt tijdens het leerproces.
Traditionele methoden zoals Supervised Fine-Tuning (SFT) bieden dichte supervisie, maar zijn vaak onvoldoende om modellen te trainen in het nemen van lange reeksen beslissingen die nodig zijn voor visuele redenering.

Methodologie

Om deze problemen op te lossen, stellen de auteurs twee hoofdcomponenten voor: een uitgebreide dataset en een nieuw RL-framework.

1. REASONMAP-PLUS (Dataset Uitbreiding)

De auteurs hebben een uitgebreide dataset, REASONMAP-PLUS, geconstrueerd om dichte beloningssignalen te bieden voor "cold-start" training.

Opbouw: De dataset bevat 4.018 vragen afkomstig van 30 steden in 13 landen.
Vraagtypes: Naast de oorspronkelijke routeplanning, worden vijf categorieën toegevoegd die variëren van eenvoudig tot complex:
- Global Counting: Aantal lijnen in een kaart.
- Local Counting: Aantal tussenstops of lijnen die een station passeren.
- True or False: Ruimtelijke relaties tussen stations of lijnen.
Zwaarte: De vragen zijn georganiseerd langs een continuüm van moeilijkheidsgraad (eenvoudig, gemiddeld, moeilijk), gebaseerd op de complexiteit van de kaart en het aantal benodigde transfers.

2. REWARDMAP Framework

REWARDMAP is een multi-stadium RL-framework gebaseerd op Group Relative Policy Optimization (GRPO). Het bestaat uit twee innovatieve ontwerpelementen:

A. Difficulty-Aware Reward Design (Moeilijkheidsbewuste Beloningsontwerp):
Om het probleem van sparsity aan te pakken, wordt de beloningsfunctie uitgebreid met drie termen, geschaald op basis van moeilijkheid:
1. Format Reward: Controleert of het antwoord voldoet aan de vereiste outputstructuur.
2. Correctness Reward: Beoordeelt of het eindantwoord correct is.
3. Detail Reward (Nieuw): Dit is cruciaal voor sparsity. Het geeft gedeeltelijke kredieten voor correcte onderdelen van het antwoord (bijv. juiste start- en eindstations, juiste lijnnamen, correct aantal transfers), zelfs als het volledige antwoord niet perfect is.
- Gewichting: De totale beloning wordt vermenigvuldigd met een difficulty-aware weight ( $W_{difficulty}$ ), die rekening houdt met de moeilijkheid van de kaart ( $\gamma$ ) en de complexiteit van de vraag (aantal transfers, $\beta$ ). Dit zorgt ervoor dat het model meer beloning krijgt voor het oplossen van moeilijkere problemen.
B. Multi-Stage RL Curriculum:
In plaats van direct te starten met complexe routeplanning, volgt het model een gestructureerd leertraject:
- Globaal Curriculum: Training begint met eenvoudige perceptietaken (zoals tellen en waar/onwaar-vragen) en werkt geleidelijk op naar complexe redeneertaken (routeplanning).
- Lokale Stochasticiteit: Binnen elk stadium worden de trainingsdata niet strikt gesorteerd, maar gewaardeerd om overfitting op een vast traject te voorkomen.
- Cold-Start Strategie: Het gebruik van REASONMAP-PLUS voor de initiële fasen zorgt voor dichte beloningen, waardoor het model effectief kan leren voordat het de moeilijke, sparsere taken van REASONMAP aanpakt.

Belangrijkste Bijdragen

REASONMAP-PLUS Dataset: Een uitgebreide dataset met 4.018 vragen, georganiseerd van eenvoudig tot moeilijk, die dient als bron voor dichte supervisie en cold-start training.
REWARDMAP Framework: Een nieuw RL-framework dat twee innovaties combineert:
- Een detail-gerichte beloningsfunctie die sparsity oplost door gedeeltelijke correctheid te belonen.
- Een multi-stadium curriculum dat modellen systematisch opbouwt van perceptie naar redenering.
Empirische Validatie: Uitgebreide experimenten tonen aan dat elke component bijdraagt aan prestatieverbetering en dat de combinatie superieur is aan bestaande methoden.

Resultaten

De prestaties zijn geëvalueerd op REASONMAP, REASONMAP-PLUS en zes externe benchmarks.

Op Transitkaarten:
- REWARDMAP presteert consistent beter dan baselines (inclusief SFT -> RL en standaard RL).
- Op REASONMAP-PLUS behaalt het model een Weighted Accuracy van 74,25%, wat een aanzienlijke verbetering is ten opzichte van de baselines en zelfs beter is dan gespecialiseerde gesloten modellen zoals Seed1.5-VL.
- Het model benadert de prestaties van gesloten state-of-the-art modellen (zoals GPT-5) op deze specifieke taken.
Generalisatie (Externe Benchmarks):
- Modellen getraind met REWARDMAP tonen verbeteringen op zes andere benchmarks die ruimtelijke redenering, fijne-granulariteit visuele redenering en algemene taken testen.
- Er is een gemiddelde verbetering van 3,47% over alle zes benchmarks.
- De grootste winst werd geboekt op SpatialEval (+13,51%), wat aantoont dat de verbeterde ruimtelijke redenering specifiek is voor de getrainde vaardigheden.
Kwalitatieve Analyse:
- Visuele vergelijkingen tonen aan dat REWARDMAP "visuele verwarring" (bijv. verkeerde lijnen lezen) en "hallucinaties" (bijv. niet-bestaande routes bedenken) significant reduceert in vergelijking met baselines.

Significantie

Dit paper is significant omdat het een fundamentele beperking in het toepassen van Reinforcement Learning op visuele taken oplost: sparsity van beloningen.

Praktische Toepassing: Het biedt een robuuste methode om AI-systemen te trainen voor real-world navigatie en transportplanning, waar nauwkeurigheid cruciaal is.
Methodologische Vooruitgang: De combinatie van een "detail reward" en een "curriculum-based cold start" biedt een blauwdruk voor het trainen van MLLMs op complexe, gestructureerde visuele taken die verder gaan dan transitkaarten (bijv. diagrammen, kaarten, technische tekeningen).
Generalisatie: Het bewijst dat het verbeteren van visuele redenering op specifieke, gestructureerde domeinen ook de algemene visuele perceptie en redeneercapaciteiten van het model verbetert, wat de weg vrijmaakt voor betrouwbaardere multimodale agents.