RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr intelligenten, aber noch etwas unerfahrenen Schüler beibringen, wie man sich in einem riesigen, komplexen U-Bahn-Netz zurechtfindet. Das ist im Grunde die Herausforderung, die dieses Papier mit dem Titel "REWARDMAP" angeht.

Hier ist die Geschichte, einfach erklärt:

Das Problem: Der "Dunkle Tunnel"

Multimodale KI-Modelle (also KI, die Bilder und Text versteht) sind heute schon sehr gut. Aber wenn es darum geht, feine Details auf einer Karte zu erkennen und logische Schlussfolgerungen zu ziehen (z. B. "Wie komme ich von Station A nach Station B, wenn ich nur 2 Umsteigemöglichkeiten habe?"), stolpern sie oft.

Das liegt an einem Problem, das wie ein dunkler Tunnel wirkt:

Das Training: Normalerweise lernt die KI durch Feedback. Wenn sie eine Antwort gibt, bekommt sie ein "Richtig" oder "Falsch".
Das Problem: Bei komplexen Kartenfragen ist das Feedback oft sehr spärlich ("sparse rewards"). Die KI muss einen langen Weg der Gedanken durchlaufen, um zur Antwort zu kommen. Erst am Ende des Tunnels bekommt sie zu hören, ob sie richtig lag. Auf dem Weg dorthin weiß sie nicht, ob sie gerade einen kleinen Fehler gemacht hat oder ob sie auf dem richtigen Weg ist. Das macht das Lernen instabil und langsam.

Die Lösung: Ein neuer Lehrplan und ein smarter Belohnungssystem

Die Forscher haben zwei Dinge entwickelt, um dieses Problem zu lösen: REASONMAP-PLUS (der neue Lehrplan) und REWARDMAP (die neue Trainingsmethode).

1. REASONMAP-PLUS: Der "Stufen-Lehrplan"

Stell dir vor, du willst jemandem das Fliegen beibringen. Du würdest ihn nicht sofort in ein Kampfflugzeug setzen und in einen Hurrikan schicken. Du fängst mit einem Drachen an, dann mit einem Gleitschirm, und erst dann mit einem echten Flugzeug.

Bisher hatten die Forscher nur die "Kampfjets" (die schweren U-Bahn-Routenplanungs-Fragen). Mit REASONMAP-PLUS haben sie einen ganzen Lehrplan erstellt:

Leicht: "Wie viele Linien sind auf dieser Karte?" (Das ist wie das Drachensteigen).
Mittel: "Wie viele Stationen liegen zwischen X und Y?" (Gleitschirm).
Schwer: "Planen Sie die perfekte Route mit Umsteigen." (Kampfflugzeug).

Durch diese Abstufung kann die KI erst die Grundlagen üben, bevor sie sich an die schweren Aufgaben wagt.

2. REWARDMAP: Der "Detail-Verstärker"

Das ist der eigentliche Clou. Wenn die KI eine schwere Aufgabe löst, bekommt sie normalerweise nur ein "Falsch" am Ende. Das ist frustrierend und bringt sie nicht weiter.

REWARDMAP ändert das Belohnungssystem wie folgt:

Das alte System: "Du hast die Route falsch berechnet. 0 Punkte."
Das neue System (Detail-Belohnung): "Du hast den Startbahnhof richtig erkannt (+1 Punkt). Du hast die Umsteigestation korrekt identifiziert (+1 Punkt). Aber die Endstation war falsch (-1 Punkt). Insgesamt hast du 1 Punkt!"

Das ist wie bei einem Videospiel, bei dem du nicht nur für den Sieg Punkte bekommst, sondern auch für das Finden von versteckten Münzen oder das Lösen kleiner Rätsel auf dem Weg. Die KI lernt so, dass jeder kleine Schritt zählt.

Zusätzlich gibt es eine Schwierigkeits-Belohnung: Wenn die KI eine besonders knifflige Karte (z. B. Tokio) richtig löst, bekommt sie mehr Punkte als für eine einfache Karte (z. B. eine kleine Stadt). Das motiviert sie, sich an die harten Aufgaben zu wagen.

Wie funktioniert das Training? (Das "Multi-Stage"-Geheimnis)

Statt die KI einfach nur mit allen Fragen zu füttern, führt REWARDMAP sie durch Phasen:

Phase 1: Die KI übt nur die leichten Fragen (Zählen, Ja/Nein-Fragen). Sie bekommt viel positives Feedback und wird selbstbewusst.
Phase 2: Die KI wird mit etwas schwereren Fragen konfrontiert, nutzt aber das Gelernte aus Phase 1.
Phase 3: Erst jetzt wagt sie sich an die komplexen Routenplanungen.

Dadurch vermeidet man, dass die KI in den "dunklen Tunnel" der Verzweiflung gerät, weil sie nie weiß, was sie falsch macht. Sie hat einen klaren Pfad vom Einfachen zum Schwierigen.

Das Ergebnis

Als die Forscher ihre KI mit dieser Methode trainierten, passierte Magie:

Sie wurde nicht nur besser im Lesen von U-Bahn-Karten.
Sie wurde auch besser in anderen Aufgaben, bei denen es auf räumliches Denken und genaues Hinsehen ankommt (wie Diagramme lesen oder allgemeine Bildanalyse).

Zusammenfassend:
Stell dir vor, du hast einen sehr talentierten, aber etwas verwirrten Schüler.

Ohne REWARDMAP: Du wirfst ihn in ein Labyrinth und sagst erst am Ende: "Du warst falsch." Er lernt kaum etwas und gibt schnell auf.
Mit REWARDMAP: Du gibst ihm eine Landkarte mit kleinen Markierungen. Du sagst: "Gut gemacht, dass du diesen Abzweig gefunden hast! Jetzt nimm diesen Weg." Du belohnst jeden kleinen Erfolg und führst ihn Schritt für Schritt vom leichten Spaziergang bis zum Bergsteigen.

Das Ergebnis ist eine KI, die nicht nur die Antwort kennt, sondern wirklich versteht, wie die Welt (oder die U-Bahn-Karte) funktioniert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Feingranulares visuelles Schlussfolgern (Fine-Grained Visual Reasoning) stellt eine zentrale Herausforderung für multimodale Large Language Models (MLLMs) dar. Insbesondere bei strukturierten und informationsreichen visuellen Eingaben, wie z. B. U-Bahn-Karten (Transit Maps), zeigen selbst fortschrittliche Modelle erhebliche Defizite in der räumlichen und visuellen Logik.

Das Hauptproblem bei der Anwendung von Reinforcement Learning (RL) auf diese Aufgaben liegt in der Sparsity der Belohnungssignale (Sparse Rewards):

Bei komplexen Aufgaben wie der Routenplanung wird die Korrektheit oft erst am Ende einer langen Kette von Schlussfolgerungen bewertet.
Dies führt zu instabiler Optimierung, da das Modell während des Trainings kaum Feedback erhält, was die Exploration erschwert und die Konvergenz verlangsamt.
Klassische Methoden wie Supervised Fine-Tuning (SFT) bieten zwar dichte Supervision, scheitern jedoch oft daran, Modelle auf langfristige, sequenzielle Entscheidungsfindung vorzubereiten.

2. Methodik: REWARDMAP

Die Autoren schlagen REWARDMAP vor, ein mehrstufiges RL-Framework, das speziell entwickelt wurde, um die oben genannten Probleme zu lösen. Der Ansatz basiert auf zwei Kernkomponenten:

A. REASONMAP-PLUS (Erweiterter Datensatz)

Um das Problem des „Cold Starts" bei RL zu adressieren, wurde der bestehende REASONMAP-Datensatz zu REASONMAP-PLUS erweitert.

Struktur: Der Datensatz enthält 4.018 Fragen aus 30 Städten in 13 Ländern, organisiert nach einem natürlichen Schwierigkeitskontinuum (einfach bis schwer).
Aufgabentypen: Neben der ursprünglichen Routenplanung wurden fünf Kategorien eingeführt, die von einfacher Wahrnehmung zu komplexem Schlussfolgern übergehen:
1. Global Counting: Zählen der Linien auf einer Karte.
2. Local Counting: Zählen von Zwischenstopps oder Linien an einem bestimmten Punkt.
3. True or False: Überprüfung von räumlichen Beziehungen zwischen Stationen oder Linien.
Ziel: Diese Aufgaben bieten dichte Belohnungssignale, da sie oft eindeutige, deterministische Antworten haben und als Vorstufe (Cold-Start) für das Training komplexerer Planungsaufgaben dienen.

B. Das REWARDMAP-Framework

Das Framework nutzt Group Relative Policy Optimization (GRPO) und integriert zwei innovative Designs:

Schwierigkeitsbewusste Belohnungsgestaltung (Difficulty-Aware Reward Design):
Um die Sparsity bei schwierigen Aufgaben zu mildern, wird eine detaillierte Belohnungsfunktion eingeführt:
- Detail-Belohnung (Detail Reward): Statt nur das Endergebnis zu bewerten, erhält das Modell Teilpunkte für korrekte Zwischenschritte (z. B. korrekte Start-/Zielstation, korrekter Linienname, korrekte Umsteigestationen).
- Schwierigkeitsgewichtung: Die Gesamtbelohnung wird basierend auf der Schwierigkeit der Karte (einfach, mittel, schwer) und der Frage (Anzahl der Umstiege) skaliert. Dies stellt sicher, dass das Modell für das Lösen komplexer Probleme stärker belohnt wird.
- Formel: $R = W_{difficulty} \times (R_{format} + R_{correctness} + \alpha \times R_{detail})$
Mehrstufiges RL-Curriculum (Multi-Stage RL Scheme):
Anstatt das Modell direkt auf die schwierigsten Aufgaben zu trainieren, wird ein Curriculum-Lernansatz verfolgt:
- Globales Curriculum: Das Training beginnt mit einfachen Wahrnehmungsaufgaben (z. B. Zählen, Wahrheitswerte) aus REASONMAP-PLUS, um fundamentale visuelle Fähigkeiten zu schärfen.
- Lokale Stochastik: Innerhalb jeder Stufe werden die Trainingsdaten zufällig gemischt, um ein Überanpassen an eine starre Reihenfolge zu verhindern.
- Der Übergang erfolgt schrittweise von einfacher Wahrnehmung hin zu komplexer Routenplanung (Reasoning). Dies ermöglicht einen effektiven Cold-Start, bei dem das Modell durch dichte Belohnungen in den frühen Phasen stabil lernt, bevor es auf die spärlichen Belohnungen der komplexen Planungsaufgaben trifft.

3. Wichtige Beiträge

REASONMAP-PLUS: Ein neuer, erweiterter Datensatz, der Aufgaben nach Schwierigkeitsgrad strukturiert und dichte Supervision für das mehrstufige RL-Training bereitstellt.
REWARDMAP-Framework: Ein innovatives RL-Framework, das ein Curriculum-Lernverfahren (einfach → schwer) mit einer differenzierten, schwierigkeitsbewussten Belohnungsfunktion kombiniert.
Umfassende Evaluation: Nachweis, dass die Kombination aus detaillierten Belohnungen und mehrstufigem Training nicht nur die Leistung auf den spezifischen Kartenaufgaben verbessert, sondern auch die allgemeinen visuellen Schlussfolgerungsfähigkeiten des Modells steigert.

4. Ergebnisse

Die Experimente wurden mit dem Modell Qwen2.5-VL-7B-Instruct durchgeführt und mit verschiedenen Baselines (SFT, Standard-RL, SFT → RL) sowie Referenzmodellen (einschließlich GPT-4o, GPT-5, Seed1.5-VL) verglichen.

Auf REASONMAP & REASONMAP-PLUS:
- REWARDMAP übertrifft alle Baselines signifikant.
- Auf REASONMAP erreicht das Modell Ergebnisse, die mit den besten Open-Source-Modellen (Qwen2.5-VL-72B) konkurrieren und sich an die Leistung geschlossener Modelle (Seed1.5-VL) annähern.
- Auf REASONMAP-PLUS übertrifft REWARDMAP sogar Seed1.5-VL.
Generalisierung auf andere Benchmarks:
- Modelle, die mit REWARDMAP trainiert wurden, zeigten eine durchschnittliche Verbesserung von 3,47 % über sechs verschiedene Benchmarks hinweg (u. a. SEED-Bench-2-Plus, SpatialEval, HRBench, MMStar).
- Besonders starke Verbesserungen wurden im Bereich des räumlichen Schlussfolgerns (SpatialEval: +13,51 %) und der feingranularen visuellen Wahrnehmung beobachtet.
Qualitative Analyse:
- REWARDMAP reduziert signifikant visuelle Verwirrungen (z. B. falsche Linienidentifikation) und Halluzinationen, die bei Baseline-Modellen häufig auftreten.

5. Bedeutung und Fazit

Die Arbeit adressiert ein fundamentales Hindernis beim Training von MLLMs für komplexe visuelle Aufgaben: die Sparsity von Belohnungssignalen. Durch die Einführung von REASONMAP-PLUS als Brücke für dichte Supervision und die Entwicklung von REWARDMAP als strukturiertes Lernverfahren, gelingt es, die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern zu schließen.

Die Ergebnisse belegen, dass ein kurrikulärer Ansatz, der von einfachen Wahrnehmungsaufgaben zu komplexer Planung führt, kombiniert mit einer feingranularen Belohnungsgestaltung, die Robustheit und Generalisierungsfähigkeit von MLLMs in strukturierten visuellen Domänen erheblich verbessert. Dies bietet einen vielversprechenden Weg für zukünftige Anwendungen in der autonomen Navigation, Logistik und anderen Bereichen, die präzises visuelles Verständnis erfordern.