Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Multimodales KI-Modell (ein "Augen-und-Gehirn"-Roboter) ist wie ein Detektiv, der einen Fall lösen muss. Um den Fall zu knacken, braucht er zwei völlig unterschiedliche Fähigkeiten:

Die Augen (Wahrnehmung): Er muss genau hinsehen, um zu erkennen, was auf dem Bild zu sehen ist (z. B. "Das ist ein Baseballspieler mit einem Trikot, auf dem 'American' steht").
Das Gehirn (Logik): Er muss diese Beobachtungen verknüpfen, um eine logische Schlussfolgerung zu ziehen (z. B. "Da steht 'American' und sie tragen Uniformen, also ist es wahrscheinlich das MLB All-Star-Spiel").

Das Problem, das die Forscher in diesem Papier beschreiben, ist wie folgt:

Das Problem: Der falsche Trainingsplan

Bisher haben die Trainer dieser KIs oft nur eine der beiden Fähigkeiten isoliert trainiert.

Entweder haben sie gesagt: "Trainiere nur das Gehirn, ignoriere die Augen!" -> Das Ergebnis: Der Detektiv hat brillante logische Schlüsse gezogen, aber er hat das Bild falsch gesehen (er dachte, es wäre ein Fußballspiel, obwohl es Baseball war).
Oder sie sagten: "Trainiere nur die Augen, ignoriere das Gehirn!" -> Das Ergebnis: Der Detektiv sah alles perfekt ("Ich sehe genau 10 Spieler und ein grünes Feld"), konnte aber keine logische Geschichte daraus machen.

Die Forscher haben herausgefunden: Beides muss gleichzeitig trainiert werden. Die Augen und das Gehirn sind untrennbar miteinander verbunden. Wenn man nur das eine optimiert, leidet das andere.

Die Lösung: "Token-Reweighting" (Das Umverteilen der Aufmerksamkeit)

Die Autoren schlagen eine neue Methode vor, die sie ToR (Token-Reweighting) nennen. Stell dir das wie einen klugen Trainer vor, der während des Trainings genau beobachtet, was der Detektiv gerade tut.

Statt jeden einzelnen Schritt des Detektivs gleich stark zu bewerten, nutzt ToR zwei spezielle Werkzeuge:

Der "Zweifel-Messer" (für das Gehirn):
Wenn der Detektiv bei einem Wort unsicher ist (z. B. "Soll ich jetzt 'Baseball' oder 'Fußball' sagen?"), ist das ein logischer Knotenpunkt. Das ist ein wichtiger Moment für das Gehirn. Der Trainer sagt: "Achtung, hier muss das Gehirn besonders gut lernen!" und gibt diesem Schritt mehr Punkte.
Der "Bild-Check" (für die Augen):
Wenn der Detektiv ein Wort sagt, das er nur wegen des Bildes kennt (z. B. "Ich sehe die roten Socken"), ist das ein visueller Moment. Wenn man das Bild wegnehmen würde, wüsste er das Wort nicht. Der Trainer sagt: "Super, hier hat das Auge richtig gearbeitet! Das müssen wir festigen!" und gibt auch diesem Schritt mehr Punkte.

Das Geniale an ToR:
Der Trainer ignoriert nicht die anderen Schritte, aber er gewichtet diese zwei kritischen Momente (Zweifel und Bildbezug) höher. Er sorgt dafür, dass das Gehirn lernt, die Bilder richtig zu nutzen, und die Augen lernen, in den logischen Fluss eingebunden zu werden.

Die Analogie: Ein Orchester

Stell dir das KI-Modell wie ein Orchester vor.

Die Wahrnehmung sind die Geigen (sie spielen die Melodie des Bildes).
Die Logik sind die Pauken (sie geben den Rhythmus der Argumentation).

Bisher haben die Dirigenten (die Algorithmen) versucht, nur die Geigen oder nur die Pauken zu üben. Das Ergebnis war entweder ein chaotisches Geigenkonzert ohne Rhythmus oder ein Paukendonner ohne Melodie.

ToR ist wie ein Dirigent, der genau weiß: "Wenn die Geige eine hohe Note spielt (visueller Hinweis), muss die Pauke genau dann den Schlag geben (logische Verknüpfung)." Er verteilt die Aufmerksamkeit so, dass beide Instrumente perfekt zusammenspielen.

Das Ergebnis

Durch diese Methode (ToR) lernen die KIs schneller und besser. Sie werden nicht nur schlauer im Denken, sondern sehen auch genauer hin. In Tests haben die Modelle mit dieser neuen Methode deutlich bessere Ergebnisse erzielt als alle bisherigen Methoden, sowohl bei schwierigen Mathe-Aufgaben mit Bildern als auch bei der Erkennung von visuellen Details.

Kurz gesagt: Die Forscher haben entdeckt, dass man einem KI-Detektiv nicht das Sehen und das Denken trennen kann. Mit ihrer neuen Methode "ToR" sorgen sie dafür, dass das Sehen und das Denken Hand in Hand gehen – und das macht die KI deutlich schlauer.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Erweiterung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf multimodale Large Language Models (MLLMs) stößt auf eine fundamentale Herausforderung: Die Antworten dieser Modelle bestehen aus einem intrinsisch verflochtenen Mix von Token-Typen.

Wahrnehmungs-Token (Perception): Diese Token verankern den visuellen Inhalt (z. B. das Beschreiben von Objekten in einem Bild).
Schlussfolgerungs-Token (Reasoning): Diese Token konstruieren logische Ketten und führen symbolische Inferenzen durch.

Bestehende RLVR-Ansätze optimieren diese Fähigkeiten oft isoliert (entweder durch Chain-of-Thought-Objektive für das Reasoning oder durch wahrnehmungsorientierte Augmentierungen). Die Autoren zeigen jedoch, dass diese Trennung suboptimal ist, da Wahrnehmung und Schlussfolgerung auf Token-Ebene eng miteinander gekoppelt sind. Eine isolierte Optimierung führt dazu, dass entweder die visuelle Verankerung verloren geht oder die logische Kohärenz leidet.

2. Methodik: Token-Reweighting (ToR)

Um dieses Problem zu lösen, schlagen die Autoren Token-Reweighting (ToR) vor, eine Plug-and-Play-Strategie, die die Interdependenz beider Fähigkeiten explizit modelliert.

A. Identifikation kritischer Token

Das Verfahren identifiziert zwei komplementäre Token-Klassen basierend auf intrinsischen Modellsignalen:

Reasoning-Related Tokens: Werden durch hohe Vorhersage-Entropie identifiziert. Hohe Entropie deutet auf Unsicherheit und kritische Entscheidungspunkte („Forks") in der Schlussfolgerungskette hin.
Perception-Related Tokens: Werden durch visuelle Sensitivität identifiziert. Dies wird gemessen als die absolute Differenz der Log-Wahrscheinlichkeiten eines Tokens, wenn das Bild als Kontext vorhanden ist, im Vergleich zu einem Text-only-Kontext (ohne Bild). Große Differenzen zeigen eine starke Abhängigkeit vom visuellen Input.

B. Der Reweighting-Mechanismus

Anstatt Gradienten auf nicht-ausgewählte Token zu maskieren (wie bei isolierter Optimierung), weist ToR spezifische Gewichte zu:

Während des Trainings (z. B. mit GRPO oder DAPO) erhalten die identifizierten Reasoning- und Perception-Token höhere Gewichte ( $\gamma_r$ und $\gamma_p$ ) in der Policy-Gradient-Berechnung.
Token außerhalb dieser Mengen erhalten ein Gewicht von null für den Vorteil (Advantage), wodurch der Fokus des Trainings auf die kritischen Bereiche gelenkt wird.
Dies ermöglicht eine gemeinsame Optimierung: Das Modell lernt gleichzeitig, die Unsicherheit in den Schlussfolgerungen zu reduzieren und die visuelle Verankerung zu stärken.

3. Wichtige Beiträge

Empirische Validierung der Kopplung: Durch kontrollierte „Selective Optimization"-Studien (Maskieren von Gradienten für einen Token-Typ) wurde gezeigt, dass das Optimieren nur von Reasoning- oder nur von Perception-Token zu signifikanten Leistungseinbußen führt. Dies beweist, dass beide Fähigkeiten gemeinsam optimiert werden müssen.
Plug-and-Play-Modul: ToR ist leichtgewichtig und kann nahtlos in bestehende RLVR-Algorithmen wie GRPO (Group Relative Policy Optimization) und DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) integriert werden, ohne die Pipelines grundlegend zu ändern.
Selbstständige Identifikation: Die Methode benötigt keine externen Priors oder manuelle Annotationen; die Token werden rein basierend auf den Modellreaktionen (Entropie und visuelle Sensitivität) ausgewählt.

4. Ergebnisse

Die Methode wurde auf dem Qwen2.5-VL-7B-Modell getestet und auf mehreren Benchmarks evaluiert (MathVerse, MathVision, MathVista, WeMath, HalluBench).

Leistungsgewinne: ToR-GRPO und ToR-DAPO übertreffen konsistent die Baseline-Modelle (Standard-GRPO/DAPO) über alle Benchmarks hinweg.
- Beispiel: Auf MathVerse stieg die Genauigkeit von 50,8 (GRPO) auf 53,0 (ToR-GRPO).
- Auf HalluBench (Fokus auf Halluzinationen/Visuelle Wahrnehmung) stieg die Leistung von 69,8 auf 72,4.
Robustheit: Die Verbesserungen bleiben auch bei Skalierung der Trainingsdaten (von 2,1k auf 39k Samples) und bei kleineren Modellen (Qwen-2.5-VL-3B) erhalten.
Qualitative Analyse: Modelle mit ToR produzieren kohärentere Denkketten, die gleichzeitig visuell korrekt verankert sind, während isolierte Optimierungen entweder logisch inkonsistent oder visuell fehlerhaft waren.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Entwicklung multimodaler KI: Die Annahme, dass Wahrnehmung und Schlussfolgerung getrennt optimiert werden können, ist falsch.

Theoretischer Beitrag: Es wird gezeigt, dass Token-Ebene-Interdependenzen zwischen visueller Grounding und logischem Reasoning existieren und dass ein Gleichgewicht zwischen „Perception Strength" und „Reasoning Uncertainty" notwendig ist.
Praktischer Impact: ToR bietet einen einfachen, aber effektiven Weg, um die State-of-the-Art-Leistung von MLLMs in komplexen multimodalen Aufgaben zu steigern, indem es sicherstellt, dass das Modell sowohl „sieht" als auch „denkt".

Zusammenfassend stellt ToR einen Paradigmenwechsel dar, weg von der isolierten Optimierung von Fähigkeiten hin zu einer integrierten, token-basierten Gewichtung, die die Synergie zwischen visueller Wahrnehmung und logischem Denken in RLVR-Frameworks maximiert.