Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

🧠 De Slimme Reisgids: Hoe AI beter leert kijken én denken

Stel je voor dat je een slimme robot hebt die een foto van een ingewikkeld meetkundig probleem of een raadsel moet oplossen. Deze robot is niet alleen een "rekenmachine", maar ook een "kijker". Hij moet eerst kijken naar de afbeelding (bijvoorbeeld: "Oh, dat is een driehoek!") en daarna denken over hoe hij het antwoord moet vinden (bijvoorbeeld: "Als deze hoek 30 graden is, dan moet die andere 60 graden zijn...").

In de wereld van kunstmatige intelligentie noemen we dit Multimodaal Redeneren (multimodal reasoning).

🚧 Het oude probleem: De "Grote Kwast"

Tot nu toe leerden we deze robots met een methode die we RLVR noemen. Stel je voor dat de robot een lange tekst schrijft met zijn redenering. Als het eindantwoord goed is, krijgt hij een beloning. Als het fout is, krijgt hij een straf.

Het probleem hiermee is dat de robot als een grote kwast wordt behandeld. De hele tekst (de "kwast") krijgt dezelfde behandeling.

Het probleem: De robot leert niet het verschil tussen de momenten waarop hij echt goed naar de foto keek (bijv. "Ik zie een rode auto") en de momenten waarop hij gewoon wat tekstjes aan het bedenken was (bijv. "Laten we nu eens kijken...").
Gevolg: De robot wordt soms te zeker van zijn zaak zonder te kijken, of hij kijkt wel, maar denkt niet goed na. Hij mist de balans tussen kijken (perceptie) en denken (exploratie).

💡 De nieuwe oplossing: PEPO (De "Slimme Lijst")

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd PEPO (Perception-Exploration Policy Optimization). Ze noemen het een "token-level" methode, maar in gewoon Nederlands betekent dit: Ze geven elke losse woord in de zin van de robot een eigen score.

Stel je voor dat de robot een reisgids is die een routebeschrijving schrijft. PEPO kijkt naar elk woord in die beschrijving en vraagt zich af: "Was dit woord belangrijk omdat het naar de foto verwees, of was het een moment van twijfel waar de robot nieuwe ideeën probeerde?"

PEPO doet dit op twee manieren:

De "Kijk-Score" (Perceptie):
- Vergelijking: Stel je voor dat de robot een foto van een boom heeft. Als hij het woord "groen" of "tak" schrijft, kijkt PEPO: "Kijkt de robot nu echt naar de boom?"
- Als het woord sterk verbonden is met de afbeelding (hoge visuele gelijkenis), krijgt het een positieve bonus. De robot leert: "Goed zo, blijf kijken!"
De "Twijfel-Score" (Exploratie):
- Vergelijking: Soms moet de robot even twijfelen. "Is het nu 30 graden of 45?"
- PEPO kijkt naar de "onzekerheid" van het woord. Als de robot twijfelt (hoge entropie), betekent dit dat hij aan het onderzoeken is. Dit is ook goed! Het leert de robot om niet te snel een keuze te maken, maar verschillende routes te verkennen.

🎛️ De Magische Regelaar (De "Smooth Gate")

Het slimme aan PEPO is dat het deze twee scores niet zomaar optelt. Het gebruikt een slimme regelaar (een "smooth gating mechanism").

De Analogie: Stel je een auto voor met twee pedalen: een voor kijken (de rem) en een voor denken (het gaspedaal).
- Als je alleen gas geeft (alleen denken), rijd je de boom in.
- Als je alleen remt (alleen kijken), kom je nergens.
- PEPO zorgt ervoor dat de bestuurder (de AI) precies weet wanneer hij moet remmen (kijken naar de foto) en wanneer hij moet gas geven (nieuwe ideeën bedenken).

Deze regelaar zorgt ervoor dat woorden die zowel naar de foto verwijzen als momenten van creatief denken zijn, extra veel aandacht krijgen tijdens het leren. Woorden die niets met de foto te maken hebben of waar de robot alleen maar "gebrabbeld" heeft, krijgen minder aandacht.

🏆 Wat levert dit op?

De onderzoekers hebben PEPO getest op verschillende moeilijke taken:

Meetkunde: Oplossen van problemen met figuren.
Raadsels: Visuele puzzels oplossen.
Zoeken: Een specifiek object in een foto aanwijzen (bijv. "Waar is de hond?").
Klassificeren: Een bloem of vliegtuig herkennen op basis van een paar voorbeelden.

Het resultaat?
De robots die met PEPO werden getraind, werden beter, sneller en stabieler dan de robots met de oude methode. Ze maakten minder fouten door "te veel te fantaseren" zonder te kijken, en ze waren beter in het vinden van het juiste antwoord door slim te twijfelen.

🚀 Conclusie in één zin

PEPO is als het geven van een superieure coach aan een AI-robot: in plaats van alleen te zeggen "Goed gedaan" of "Fout gedaan" aan het einde van de wedstrijd, zegt de coach bij elk woord: "Kijk hier goed naar de foto!" of "Probeer hier eens een andere kant op te denken!". Hierdoor wordt de robot veel slimmer in het combineren van zien en denken.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Grote Vision-Language Modellen (LVLM's) hebben moeite om effectief te redeneren via "Chain-of-Thought" (CoT), waarbij perceptie (visuele waarneming) en inferentie (logisch redeneren) met elkaar verweven moeten zijn. Bestaande methoden voor Reinforcement Learning met Verifieerbare Beloningen (RLVR), zoals GRPO en DAPO, hebben twee belangrijke beperkingen:

Grofkorrelige optimalisatie: Ze behandelen de hele antwoordsequentie uniform. Ze onderscheiden niet welke tokens visueel onderbouwd zijn (perceptie) en welke tokens exploratieve redeneerstappen vertegenwoordigen.
Gebrek aan visuele sensitiviteit: Bestaande token-niveau methoden vertrouwen vaak alleen op entropie (onzekerheid) om exploratie te stimuleren. Dit vangt tekstuele onzekerheid goed op, maar faalt in het onderscheiden van visuele relevantie. Andere methoden die visuele signalen gebruiken, introduceren vaak extra computatiekosten of zijn niet compatibel met efficiënte versnellingsframeworks.

Het paper stelt dat succesvol multimodaal redeneren afhangt van de complementariteit tussen visueel verankerde tokens (die de perceptie verankeren) en hoog-entropie tokens (die exploratie van verschillende redeneerpaden aanduiden).

2. Methodologie: PEPO (Perception-Exploration Policy Optimization)

De auteurs introduceren PEPO, een token-niveau beleidsoptimalisatieframework dat visuele perceptie en exploratie koppelt zonder extra supervisie of hulpvertakkingen.

Kerncomponenten:

Token-niveau Analyse:
- Visuele Similariteit (Perceptie): Voor elke responstoken wordt de cosine-相似heid berekend tussen de verborgen staat van die token en de verborgen staten van alle visuele tokens (over alle lagen van het model). Dit levert een score op die aangeeft hoe sterk een token visueel verankerd is.
- Entropie (Exploratie): De entropie van de logits wordt gebruikt om onzekere redeneerstappen te identificeren waar het model moet exploreren.
- Analyse-resultaat: Correcte redenering wordt gekenmerkt door een compacte subset van tokens met hoge visuele similariteit, terwijl hoog-entropie tokens vaak corresponderen met overgangspunten in het redeneren (zoals verificatie of correctie).
Fusie-mechanisme (Smooth Gating):
- PEPO combineert de visuele similariteit-score ($VS$) en de entropie-score ( $H$ ) via een gladde "gating" mechanisme.
- Eerst worden beide scores genormaliseerd (min-max) binnen een respons.
- Een gezamenlijke score wordt berekend en vervolgens door een tanh-functie geleid om een gate te vormen.
- Belangrijk: De entropie-modulatie is afhankelijk van de visuele similariteit. De formule is: $w_t = T \cdot \text{Softmax}((1 + \alpha \tanh(\hat{g}_t)) \cdot VS_t)$ . Dit zorgt ervoor dat entropie alleen de exploratie stimuleert op tokens die al visueel relevant zijn, en voorkomt dat irrelevante tokens onnodig worden versterkt.
Token-niveau Voordeel (Advantage):
- De gegenereerde gewichten ( $w_t$ ) worden gebruikt om het sequentie-niveau voordeel ( $A^{(i)}$ ) van GRPO/DAPO te herschalen naar token-niveau voordelen ( $A^{(i)}_t$ ).
- Dit zorgt voor fijne optimalisatie die de bijdrage van individuele tokens onderscheidt, waardoor het model meer focus legt op visueel verankerde stappen en exploratieve overgangen.
Integratie: PEPO kan naadloos worden geïntegreerd in bestaande frameworks zoals GRPO (variante: PEPOG) en DAPO (variante: PEPOD) met minimaal rekenkundig overhead (minder dan 1% extra tijd per stap).

3. Belangrijkste Bijdragen

Eerste Token-niveau Analyse: Het is het eerste werk dat de complementaire rollen van visueel verankerde tokens en hoog-entropie tokens in LVLM's onderzoekt, en inzicht geeft in hoe perceptie redeneren verankert terwijl entropie exploratie drijft.
PEPO Framework: Een nieuw framework dat een "perceptie-prior" afleidt uit verborgen-staat similariteit en dit combineert met entropie via een gladde gating-mechanisme, zonder extra supervisie.
Uitgebreide Validatie: Implementatie en testen op GRPO en DAPO, met consistente verbeteringen over diverse taken (geometrie, wiskunde, visuele puzzels, visuele grounding en few-shot classificatie).

4. Resultaten

PEPO werd getest op twee modellen (Qwen2.5-VL-3B en InternVL3-2B) over meerdere benchmarks:

Geometrie en Wiskunde:
- Op Geometry3K en out-of-domain benchmarks (MathVista, MathVerse, LogicVista) verbeterde PEPOG de prestaties met +3.67 punten ten opzichte van GRPO op Qwen2.5-VL-3B.
- Op InternVL3-2B werd een verbetering van +3.51 punten (vs GRPO) en +5.15 punten (vs DAPO) behaald.
Visuele Grounding:
- Op RefCOCO en LISA-Grounding verbeterde PEPO de IoU@50 met +0.86 punten ten opzichte van GRPO, terwijl het de instabiliteit (collapse) van pure entropie-methoden vermijdt.
Few-Shot Classificatie:
- Op FGVC Aircraft en Flower102 (1/2/4-shot) werden aanzienlijke verbeteringen geboekt, met name +5.32 punten gemiddeld op FGVC Aircraft.
Visuele Puzzels:
- Consistente verbeteringen op PuzzleVQA en AlgoPuzzleVQA, wat aangeeft dat het model beter abstracte relationele patronen kan herkennen.
Efficiëntie:
- De extra rekentijd voor het berekenen van de gewichten is verwaarloosbaar (<1% overhead).
- PEPO leidt vaak tot kortere antwoorden tijdens het trainen, wat de effectieve doorvoer verbetert.

5. Betekenis en Conclusie

Het paper demonstreert dat het uniform behandelen van tokens in RLVR voor multimodale modellen suboptimaal is. Door PEPO in te zetten, wordt de koppeling tussen visuele perceptie en redeneer-exploratie expliciet gemaakt op token-niveau.

Stabiliteit: PEPO biedt stabielere trainingsdynamiek dan pure entropie-methoden, die vaak instabiel zijn in multimodale contexten.
Generalisatie: De methode generaliseert goed over verschillende domeinen (van wiskundige afleidingen tot visuele zoekopdrachten) en schaalbaarheidsanalyses op grotere datasets (ViRL39k) tonen consistente winst.
Praktische Toepasbaarheid: Omdat PEPO geen extra supervisie vereist en compatibel is met bestaande RL-frameworks, is het een directe en effectieve upgrade voor het trainen van LVLM's met Chain-of-Thought redenering.

Kortom, PEPO bewijst dat het balanceren van "wat we zien" (perceptie) en "waar we twijfelen" (exploratie) op token-niveau essentieel is voor robuust multimodaal redeneren.