Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Dit artikel introduceert Token-Reweighting (ToR), een strategie die de onderlinge afhankelijkheid van waarnemings- en redeneertokens in multimodale taalmodellen expliciet modelleert om de prestaties van Reinforcement Learning with Verifiable Rewards (RLVR) te verbeteren en zo state-of-the-art resultaten te behalen op multimodale redeneerbenchmarks.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He

Gepubliceerd 2026-03-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een multimodaal kunstmatige intelligentie (zoals een slimme robot die zowel kan kijken als denken) een raadsel moet oplossen. Het krijgt een foto en een vraag. Om het antwoord te vinden, moet de robot twee dingen tegelijk doen:

  1. Kijken (Perceptie): De foto goed bekijken en details zien (bijv. "Ik zie twee rijen honkballers in uniform").
  2. Denken (Redeneren): Die details logisch verbinden tot een conclusie (bijv. "Omdat ze in uniform staan en er 'All-Star' op staat, is dit de MLB All-Star Game").

In de huidige wereld van AI-problemen is er een groot struikelblok. Als je deze robot traint om beter te worden, doe je dat vaak door alleen te focussen op het denken of alleen op het kijken.

Het probleem: De "Eenzijdige" Trainer
De auteurs van dit paper ontdekten iets interessants: als je de robot alleen traint om beter te redeneren, wordt hij slim in logica, maar hij blijft de foto's vaak verkeerd interpreteren (hij ziet de honkballers niet goed). Als je hem alleen traint om beter te kijken, ziet hij de foto perfect, maar hij kan de logica niet goed opbouwen (hij ziet de details, maar snapt niet wat ze betekenen).

Het is alsof je een student traint voor een examen: als je alleen de theorie oefent, faalt hij in de praktijk. Oefen je alleen de praktijk, dan mist hij de theorie. Ze werken samen; je kunt ze niet los van elkaar zien.

De oplossing: De "Slimme Weegschaal" (Token Reweighting)
De auteurs, Jinda Lu en zijn team, hebben een slimme truc bedacht die ze ToR (Token Reweighting) noemen.

Stel je voor dat de robot een lange zin schrijft, woord voor woord. Elk woord is een "token".

  • Sommige woorden zijn puur visueel (bijv. "blauw shirt", "honkbal").
  • Sommige woorden zijn puur logisch (bijv. "daarom", "dus", "conclusie").
  • Soms zijn ze een mix van beide.

Bij de oude methode (GRPO) kreeg elk woord in die zin evenveel aandacht tijdens het trainen. Alsof je een leraar bent die elke zin in een boek even hard roept, ongeacht of het een belangrijk detail of een onbelangrijk woord is.

Hoe werkt ToR?
ToR is als een slimme weegschaal of een regisseur die tijdens het trainen precies weet welke woorden belangrijk zijn:

  1. De Regisseur kijkt mee: Hij ziet welke woorden de robot het meest twijfelachtig vindt (dat zijn de belangrijke denk-woorden).
  2. Hij ziet ook wat er verandert: Hij ziet welke woorden alleen maar verschijnen als er een foto is, en niet als er alleen tekst is (dat zijn de belangrijke kijk-woorden).
  3. Hij geeft extra gewicht: In plaats van alle woorden even hard te laten oefenen, geeft de regisseur extra "gewicht" aan die cruciale woorden. Hij zegt: "Hé, dit woord over de honkbalshirt is superbelangrijk om te zien, en dit woord 'daarom' is superbelangrijk om te begrijpen. Laten we daar extra op focussen!"

Het resultaat
Door deze "gewichtjes" toe te voegen, leert de robot veel sneller en beter. Hij leert niet alleen om beter te kijken, maar ook om die beelden logisch te verbinden.

  • Vroeger: De robot was ofwel een briljante denker die blind was, of een scherpziende waarnemer die niet kon denken.
  • Nu (met ToR): De robot is een alleskunner. Hij ziet de details van de foto én bouwt daar een perfecte redenering omheen.

Samengevat in één zin:
De auteurs hebben ontdekt dat "zien" en "denken" in AI hand in hand gaan, en ze hebben een slimme methode bedacht om de AI tijdens het leren precies te vertellen op welke momenten hij moet kijken en op welke momenten hij moet nadenken, zodat hij in beide vaardigheden top wordt.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →