Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein großes KI-Modell (ein „Seh-und-Sprach-Modell") ist wie ein sehr intelligenter, aber manchmal etwas zerstreuter Detektiv. Wenn man ihm ein Bild zeigt und eine Frage stellt, muss es nicht nur das Bild „sehen", sondern auch logisch denken, um die Antwort zu finden.

Bisher haben Forscher versucht, diesen Detektiv zu trainieren, indem sie ihm am Ende sagten: „Gut gemacht!" oder „Schlecht gemacht!", basierend darauf, ob die Endantwort richtig war. Das Problem dabei: Der Detektiv weiß nicht genau, welcher Teil seiner Gedankenkette (der „Chain of Thought") ihn zum Erfolg geführt hat. Hat er das Bild gut analysiert? Oder hat er einfach nur geraten?

Die Forscher aus diesem Papier haben eine neue Methode namens PEPO entwickelt. Hier ist die Erklärung in einfachen Worten mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Einheits-Gutschein"

Stell dir vor, der Detektiv schreibt einen langen Bericht über einen Fall. Am Ende bekommt er einen einzigen Gutschein für „Gute Arbeit".

Das alte System (GRPO/DAPO): Es verteilt diesen Gutschein auf alle Wörter im Bericht gleichmäßig. Egal, ob das Wort „Hund" (das im Bild zu sehen ist) oder das Wort „vielleicht" (eine unsichere Vermutung) war – alle bekommen den gleichen Lobpreis.
Das Problem: Der Detektiv lernt nicht, welche Teile des Berichts wirklich wichtig waren. Er könnte denken, das Raten war genauso gut wie das genaue Hinsehen.

2. Die Lösung: PEPO – Der „Feinjustier-Knopf"

PEPO schaut sich jeden einzelnen Schritt (jedes Wort) im Denkprozess des Detektivs an und gibt ihm ein individuelles Feedback. Es nutzt zwei Sensoren:

Sensor A: Der „Fotograf" (Wahrnehmung)

Was er tut: Er prüft: „Bezieht sich dieses Wort direkt auf das Bild?"
Die Analogie: Stell dir vor, der Detektiv hält eine Lupe über das Bild. Wenn er sagt: „Ich sehe einen roten Ball", ist das Wort „Ball" stark mit dem Bild verknüpft. Das ist gute Wahrnehmung.
PEPOs Reaktion: Diese Wörter bekommen einen Bonus. Der Detektiv lernt: „Aha! Wenn ich das Bild genau beschreibe, bin ich auf dem richtigen Weg."

Sensor B: Der „Abenteurer" (Exploration)

Was er tut: Er prüft: „Bin ich mir bei diesem Schritt unsicher?"
Die Analogie: Wenn der Detektiv zögert und sagt: „Vielleicht ist es ein Ball, oder vielleicht ein Apfel?", ist er unsicher. In der KI-Sprache nennt man das hohe „Entropie" (Unordnung/Unsicherheit).
PEPOs Reaktion: Auch diese unsicheren Momente sind wichtig! Sie zeigen, wo der Detektiv neue Wege ausprobieren muss. PEPO gibt auch diesen Momenten einen Bonus, damit der Detektiv lernt, verschiedene Möglichkeiten zu prüfen, statt nur blind zu raten.

3. Der Zaubertrick: Die „Glättende Tür"

Das Geniale an PEPO ist, wie es diese beiden Sensoren kombiniert.
Stell dir vor, PEPO hat eine automatische Tür zwischen dem Fotografen und dem Abenteurer.

Wenn der Detektiv das Bild gut sieht (Fotograf), öffnet sich die Tür für den Abenteurer.
Aber: Wenn der Detektiv etwas sagt, das gar nichts mit dem Bild zu tun hat (z. B. „Der Himmel ist blau", obwohl es um einen Ball geht), bleibt die Tür zu. PEPO ignoriert diese Wörter, auch wenn der Detektiv unsicher ist.

So lernt das Modell: „Sei mutig beim Denken, aber halte dich immer fest an das, was du im Bild siehst."

Warum ist das so toll?

In den Tests hat PEPO gezeigt, dass KI-Modelle damit viel besser werden bei:

Mathe- und Geometrieaufgaben: Sie verstehen besser, wie Linien und Formen im Bild zusammenhängen.
Bildbeschreibungen: Sie finden genau den richtigen Gegenstand im Bild (z. B. „Wo ist der Hund?").
Rätsel: Sie lösen komplexe visuelle Rätsel, bei denen man logisch schrittweise vorgehen muss.

Zusammenfassung

Früher haben wir KI-Modelle trainiert wie einen Schüler, dem man nur die Note am Ende des Tests gibt. Mit PEPO geben wir dem Schüler eine detaillierte Rückmeldung auf jeder Seite seiner Hausaufgaben:

„Gut, dass du das Bild genau betrachtet hast!" (Wahrnehmung)
„Gut, dass du hier verschiedene Möglichkeiten durchdacht hast!" (Exploration)
„Aber dieses Wort hier hat nichts mit dem Bild zu tun – lass es weg."

Dadurch werden die KI-Modelle nicht nur schlauer, sondern auch stabiler und zuverlässiger, wenn es um das Verstehen von Bildern und Texten gleichzeitig geht.

Each language version is independently generated for its own context, not a direct translation.

Titel: Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought (PEPO)

Autoren: Yunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng (Nankai University & Kuaishou Technology).

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) haben Fortschritte in Aufgaben wie visuellem Fragenbeantworten und logischem Schlussfolgern gemacht. Ein zentraler Ansatz zur Verbesserung der Schlussfolgerungsfähigkeiten ist das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), oft implementiert durch Frameworks wie GRPO (Group Relative Policy Optimization).

Die Hauptprobleme bestehender Ansätze sind:

Grobe Granularität: Herkömmliche RLVR-Methoden optimieren die Belohnung auf Sequenzebene. Das bedeutet, dass alle Token eines Antwortpfads (Chain-of-Thought, CoT) gleich behandelt werden, unabhängig davon, ob sie visuell relevant sind oder reine Text-Exploration darstellen.
Mangelnde Unterscheidung: Es wird nicht zwischen Token unterschieden, die eine visuelle Verankerung (Perception) benötigen, und solchen, die exploratives Denken (Exploration) repräsentieren.
Ineffizienz bei Multimodalität: Bestehende token-level Ansätze basieren oft nur auf Entropie (Unsicherheit im Text), was die visuelle Semantik ignoriert. Andere Ansätze, die visuelle Signale einbeziehen, nutzen oft zusätzliche Maskierungs-Branches oder Aufmerksamkeitsmechanismen, die den Rechenaufwand erhöhen und mit effizienten Beschleunigungs-Frameworks inkompatibel sind.

Das Paper argumentiert, dass erfolgreiches multimodales Reasoning eine Kombination aus visueller Verankerung (Perception) und explorativer Unsicherheit (Exploration) erfordert, die auf Token-Ebene unterschiedlich gewichtet werden müssen.

2. Methodik: Perception-Exploration Policy Optimization (PEPO)

PEPO ist ein Token-Level-Policy-Optimierungs-Framework, das visuelle Wahrnehmung und Exploration koppelt, ohne zusätzliche Überwachung oder Hilfszweige zu benötigen.

A. Token-Level-Analyse

Die Autoren analysierten Reasoning-Pfade und stellten fest:

Visuelle Ähnlichkeit (Perception): Korrekte Antworten hängen stark von einer kompakten Teilmenge von Token ab, die eine hohe Ähnlichkeit zu den visuellen Eingabe-Token haben (Hidden-State-Similarität). Diese Token „verankern" das Denken in der visuellen Realität.
Entropie (Exploration): Token mit hoher Entropie markieren unsichere Schritte oder Übergangspunkte im Reasoning-Prozess, an denen alternative Pfade erkundet werden sollten.
Komplementarität: Diese beiden Signale sind komplementär: Visuelle Ähnlichkeit sichert die Korrektheit, während Entropie die Vielfalt der Exploration fördert.

B. Der PEPO-Algorithmus

PEPO integriert diese Erkenntnisse in den GRPO/DAPO-Workflow durch folgende Schritte:

Perception Modeling (Visuelle Ähnlichkeit):
Für jedes Antwort-Token $t$ wird die kosinussähnlichkeit zwischen seinem Hidden-State und den Hidden-States aller Vision-Token über alle Transformer-Schichten hinweg berechnet. Dies ergibt einen „Visual Grounding Score" ( $VS_t$ ). Dies dient als Perception Prior.
Exploration Modeling (Entropie):
Die Entropie ( $H_t$ ) wird aus den Logits des Modells berechnet, um Unsicherheit zu quantifizieren.
Fusion durch Smooth Gating:
Um beide Signale zu kombinieren, werden $VS_t$ und $H_t$ normalisiert und durch einen glatten Gate-Mechanismus fusioniert:
- Ein normalisierter gemeinsamer Score $\hat{g}_t$ wird berechnet.
- Ein Gate-Funktion (basierend auf $\tanh$ ) moduliert die Entropie, wobei die visuelle Ähnlichkeit als dominanter Faktor bleibt.
- Das Ziel ist, Entropie nur bei visuell verankerten Token zu verstärken, um „blindes Raten" zu vermeiden.
- Die resultierenden Gewichte $w_t$ werden so skaliert, dass ihr Mittelwert 1 ist (Unit-Mean Constraint), um die Gesamtgröße des Policy-Gradienten zu erhalten.
Token-Level Advantage:
Der sequenzbasierte Vorteil $A^{(i)}$ (aus GRPO) wird in token-spezifische Vorteile umgewandelt:
$A^{(i)}_t = [(1 - \lambda) + \lambda \cdot w^{(i)}_t] \cdot A^{(i)}$
Dabei steuert $\lambda$ (ein linearer Scheduler) die Stärke der Token-Level-Modulation während des Trainings. Dies führt zu feingranularen Updates, die visuell verankerte und explorative Token stärker belohnen.

3. Hauptbeiträge

Erste Analyse der Komplementarität: Das Paper ist das erste, das die komplementären Rollen von visuell verankerten Token und hoch-entropischen Token in LVLMs systematisch untersucht und zeigt, wie Perception das Reasoning verankert und Entropie die Exploration antreibt.
PEPO Framework: Entwicklung eines effizienten Token-Level-Optimierungsrahmens, der einen Perception-Prior aus Hidden-State-Similarität ableitet und diesen über einen glatten Gate-Mechanismus mit Entropie kombiniert.
Nahtlose Integration & Leistung: PEPO lässt sich direkt in bestehende RLVR-Frameworks wie GRPO (als PEPOG) und DAPO (als PEPOD) integrieren. Es erfordert keine zusätzlichen Supervision-Daten oder Architekturerweiterungen und fügt einen vernachlässigbaren Rechenaufwand hinzu (< 1%).

4. Ergebnisse

PEPO wurde auf zwei LVLM-Architekturen (Qwen2.5-VL-3B und InternVL3-2B) und über verschiedene Benchmarks hinweg evaluiert.

Geometrie- und Mathematisches Reasoning:
- Auf Geometry3K, MathVista, MathVerse und LogicVista erzielte PEPOG (auf GRPO basierend) Verbesserungen von +3,67 Punkten (Qwen2.5-VL-3B) und +3,51 Punkten (InternVL3-2B) gegenüber dem GRPO-Baseline.
- PEPOD (auf DAPO basierend) zeigte ebenfalls signifikante Steigerungen (+0,45 bzw. +5,15 Punkte).
Visuelles Grounding (RefCOCO, LISA):
- PEPO verbesserte die IoU@50 um +0,86 Punkte auf RefCOCO und zeigte deutliche Gewinne bei Domain-Shift-Szenarien (LISA), was auf eine bessere Ausrichtung von Text und Bild hindeutet.
Few-Shot Klassifizierung (FGVC Aircraft, Flower102):
- In 1-, 2- und 4-Shot-Szenarien erzielte PEPOG Verbesserungen von +5,32 Punkten (Aircraft) und +1,46 Punkten (Flower102) gegenüber GRPO.
Visuelle Puzzles:
- Konsistente Verbesserungen auf PuzzleVQA und AlgoPuzzleVQA, was die Fähigkeit zur Erkennung abstrakter relationaler Muster unterstreicht.
Skalierbarkeit:
- Auf dem großen ViRL39K-Datensatz zeigte PEPO konsistente Gewinne über GRPO und PAPO, was auf robuste Generalisierung hinweist.
Effizienz:
- Der zusätzliche Rechenaufwand (Overhead) beträgt weniger als 1% pro Trainingsschritt. Die Durchsatzraten sind vergleichbar mit oder sogar höher als bei GRPO, teilweise aufgrund kürzerer generierter Antworten.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Optimierung von Chain-of-Thought-Reasoning in multimodalen Modellen nicht auf Sequenzebene erfolgen sollte. Stattdessen ist eine feingranulare Token-Level-Optimierung notwendig, die die spezifische Rolle jedes Token im Reasoning-Prozess berücksichtigt.

Prinzipielle Erkenntnis: Erfolgreiches multimodales Reasoning entsteht durch das Zusammenspiel von Perception (visuelle Verankerung) und Exploration (Unsicherheit/Alternativen).
Technischer Fortschritt: PEPO bietet einen eleganten Weg, diese beiden Aspekte zu koppeln, ohne die Komplexität des Trainings zu erhöhen. Es löst das Problem der „Optimierungs-Ungleichgewichte", bei denen reine Text-Exploration die visuelle Genauigkeit überlagert.
Zukunft: Die Methode etabliert einen neuen Standard für RLVR in LVLMs und zeigt, dass einfache, aber gut konzipierte Mechanismen (wie Hidden-State-Similarität) effektivere Signale liefern können als komplexe, ressourcenintensive Architekturen.

Zusammenfassend stellt PEPO einen wesentlichen Schritt vorwärts dar, um LVLMs zu robusteren, visuell fundierten und logisch konsistenteren Schlussfolgerungen zu führen.