Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een multimodaal kunstmatige intelligentie (zoals een slimme robot die zowel kan kijken als denken) een raadsel moet oplossen. Het krijgt een foto en een vraag. Om het antwoord te vinden, moet de robot twee dingen tegelijk doen:

Kijken (Perceptie): De foto goed bekijken en details zien (bijv. "Ik zie twee rijen honkballers in uniform").
Denken (Redeneren): Die details logisch verbinden tot een conclusie (bijv. "Omdat ze in uniform staan en er 'All-Star' op staat, is dit de MLB All-Star Game").

In de huidige wereld van AI-problemen is er een groot struikelblok. Als je deze robot traint om beter te worden, doe je dat vaak door alleen te focussen op het denken of alleen op het kijken.

Het probleem: De "Eenzijdige" Trainer
De auteurs van dit paper ontdekten iets interessants: als je de robot alleen traint om beter te redeneren, wordt hij slim in logica, maar hij blijft de foto's vaak verkeerd interpreteren (hij ziet de honkballers niet goed). Als je hem alleen traint om beter te kijken, ziet hij de foto perfect, maar hij kan de logica niet goed opbouwen (hij ziet de details, maar snapt niet wat ze betekenen).

Het is alsof je een student traint voor een examen: als je alleen de theorie oefent, faalt hij in de praktijk. Oefen je alleen de praktijk, dan mist hij de theorie. Ze werken samen; je kunt ze niet los van elkaar zien.

De oplossing: De "Slimme Weegschaal" (Token Reweighting)
De auteurs, Jinda Lu en zijn team, hebben een slimme truc bedacht die ze ToR (Token Reweighting) noemen.

Stel je voor dat de robot een lange zin schrijft, woord voor woord. Elk woord is een "token".

Sommige woorden zijn puur visueel (bijv. "blauw shirt", "honkbal").
Sommige woorden zijn puur logisch (bijv. "daarom", "dus", "conclusie").
Soms zijn ze een mix van beide.

Bij de oude methode (GRPO) kreeg elk woord in die zin evenveel aandacht tijdens het trainen. Alsof je een leraar bent die elke zin in een boek even hard roept, ongeacht of het een belangrijk detail of een onbelangrijk woord is.

Hoe werkt ToR?
ToR is als een slimme weegschaal of een regisseur die tijdens het trainen precies weet welke woorden belangrijk zijn:

De Regisseur kijkt mee: Hij ziet welke woorden de robot het meest twijfelachtig vindt (dat zijn de belangrijke denk-woorden).
Hij ziet ook wat er verandert: Hij ziet welke woorden alleen maar verschijnen als er een foto is, en niet als er alleen tekst is (dat zijn de belangrijke kijk-woorden).
Hij geeft extra gewicht: In plaats van alle woorden even hard te laten oefenen, geeft de regisseur extra "gewicht" aan die cruciale woorden. Hij zegt: "Hé, dit woord over de honkbalshirt is superbelangrijk om te zien, en dit woord 'daarom' is superbelangrijk om te begrijpen. Laten we daar extra op focussen!"

Het resultaat
Door deze "gewichtjes" toe te voegen, leert de robot veel sneller en beter. Hij leert niet alleen om beter te kijken, maar ook om die beelden logisch te verbinden.

Vroeger: De robot was ofwel een briljante denker die blind was, of een scherpziende waarnemer die niet kon denken.
Nu (met ToR): De robot is een alleskunner. Hij ziet de details van de foto én bouwt daar een perfecte redenering omheen.

Samengevat in één zin:
De auteurs hebben ontdekt dat "zien" en "denken" in AI hand in hand gaan, en ze hebben een slimme methode bedacht om de AI tijdens het leren precies te vertellen op welke momenten hij moet kijken en op welke momenten hij moet nadenken, zodat hij in beide vaardigheden top wordt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Auteurs: Jinda Lu et al. (USTC, Peking University, etc.)
Datum: Maart 2026 (Preprint)

1. Het Probleem

Het uitbreiden van Reinforcement Learning met Verifieerbare Beloningen (RLVR) naar Multimodale Grootte Taalmodellen (MLLMs) stuit op een fundamentele uitdaging. De antwoorden van MLLM's bevatten een complexe mix van twee soorten tokens die vaak door elkaar lopen:

Perceptie-gerelateerde tokens: Deze verankeren de reactie in visuele inhoud (bijv. het beschrijven van objecten in een afbeelding).
Redenerings-gerelateerde tokens: Deze bouwen logische redeneerketens op (bijv. "daarom", "conclusie").

Bestaande RLVR-methoden optimaliseren deze capaciteiten vaak geïsoleerd van elkaar (ofwel gericht op redenering via Chain-of-Thought, ofwel gericht op perceptie via data-augmentatie). Het paper stelt dat deze gescheiden optimalisatie suboptimaal is omdat perceptie en redenering op token-niveau fundamenteel onderling afhankelijk zijn. Het optimaliseren van slechts één type token leidt tot een onevenwichtige training:

Alleen redenering optimaliseren: Leidt tot coherente gedachten, maar misinterpretatie van visuele inhoud.
Alleen perceptie optimaliseren: Behoudt visuele nauwkeurigheid, maar faalt in het integreren daarvan in een coherent redeneringsproces.

2. Methodologie: Token Reweighting (ToR)

Om dit probleem op te lossen, stellen de auteurs Token Reweighting (ToR) voor. Dit is een plug-and-play strategie die de onderlinge afhankelijkheid expliciet modelleert door kritieke tokens van beide typen te identificeren en hun gewicht dynamisch aan te passen tijdens de RLVR-training.

A. Identificatie van Tokens

De methode gebruikt intrinsieke signaals van het model om tokens te categoriseren zonder externe priors:

Redenerings-tokens: Worden geïdentificeerd op basis van hoge voorspellingsentropie. Tokens met hoge entropie vertegenwoordigen onzekerheid en cruciale beslispunten ("forking points") in de redeneerketen.
Perceptie-tokens: Worden geïdentificeerd op basis van visuele gevoeligheid. Dit wordt gemeten als het absolute verschil in log-probabiliteit van een token wanneer de input een afbeelding bevat versus wanneer de afbeeldingskanaal leeg is (alleen tekst). Een groot verschil duidt op een sterke visuele afhankelijkheid.

B. De ToR-strategie

In plaats van gradients te maskeren voor niet-gekozen tokens (zoals bij "selective optimization"), past ToR specifieke gewichten toe op de policy-gradient berekening:

Een gewicht $\gamma_r$ wordt toegekend aan redenerings-tokens.
Een gewicht $\gamma_p$ wordt toegekend aan perceptie-tokens.
Tokens die niet tot deze sets behoren, krijgen een gewicht van 0 (of een verwaarloosbare waarde) voor de voordeelberekening.

Dit wordt geïmplementeerd in bestaande RLVR-algoritmen zoals GRPO (Group Relative Policy Optimization) en DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization). De doelstelling wordt herschreven om de gradients te focussen op de kritieke tokens die zowel visuele verankering als logische besluitvorming ondersteunen.

3. Belangrijkste Bijdragen

Empirische Validatie van Onderlinge Afhankelijkheid: Door middel van gecontroleerde experimenten ("selective optimization") tonen de auteurs aan dat het optimaliseren van alleen perceptie- of alleen redenerings-tokens consistent slechter presteert dan het optimaliseren van alle tokens. Dit bewijst dat beide capaciteiten gekoppeld zijn en gezamenlijk moeten worden geoptimaliseerd.
Token Reweighting (ToR) Framework: Een lichtgewicht, plug-and-play module die de interactie tussen perceptie en redenering expliciet modelleert door dynamische herweging van tokens tijdens training.
State-of-the-Art Resultaten: ToR levert consistente prestatieverbeteringen op diverse benchmarks, zowel voor visuele redenering als visuele perceptie, zonder de noodzaak van complexe pijplijnwijzigingen.

4. Resultaten

De auteurs hebben ToR getest op het Qwen2.5-VL-7B model (en 3B variant) met training op het Geometry3K dataset en evaluatie op meerdere benchmarks:

Benchmarks: MathVerse, MathVision, MathVista, WeMath (visueel redeneren) en HalluBench (visuele perceptie/hallucinaties).
Prestaties:
- ToR-GRPO verbeterde de score op MathVerse van 50.8 naar 53.0 en op HalluBench van 69.8 naar 72.4 (vergeleken met standaard GRPO).
- ToR-DAPO behaalde de beste resultaten in de vergelijking, met name op WeMath (72.1 vs 69.3) en MathVista (72.6 vs 70.3).
- De methode generaliseert goed over verschillende modelgroottes (3B vs 7B) en datasets (Geo3K vs ViRL-39K).
Ablatie-studies:
- Het optimaliseren van alleen één token-type resulteerde in prestatiedalingen.
- Een gebalanceerde instelling (bijv. $\gamma_p = 0.5$ ) bleek optimaal voor het behalen van zowel sterke perceptie als redenering.
- De methode is robuust voor variaties in de selectie-ratio van tokens (bijv. 30% is een conservatief en effectief punt).

5. Betekenis en Impact

Dit paper is significant omdat het een fundamenteel inzicht biedt in de werking van MLLM's tijdens RLVR-training:

Paradigmaverschuiving: Het weerlegt de aanname dat perceptie en redenering los van elkaar kunnen worden geoptimaliseerd. Het benadrukt dat "visuele verankering" en "symbolisch redeneren" onlosmakelijk verbonden zijn in de token-generatie.
Efficiëntie: ToR is een eenvoudige maar krachtige toevoeging aan bestaande RLVR-frameworks die geen extra data of complexe architecturale wijzigingen vereist.
Toekomstige Richting: Het opent de deur voor fijnmazigere token-identificatiestrategieën (bijv. gebruik van segmentatie-modellen) en dynamische gewichtstoewijzing op basis van gradiëntbijdragen, wat essentieel is voor de ontwikkeling van robuuste multimodale AI-systemen die zowel goed "zien" als goed "denken".

Kortom, Token Reweighting biedt een oplossing voor het "perceptie-redenering" dilemma in multimodale modellen, waardoor modellen beter in staat zijn om visuele informatie te integreren in complexe logische redeneerprocessen.