Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à un enfant très intelligent à résoudre des énigmes complexes en lui montrant des photos. Pour réussir, cet enfant doit faire deux choses simultanément :

Regarder la photo (Perception) : "Je vois un joueur de baseball avec un maillot bleu."
Raisonner (Logique) : "Si c'est un joueur de baseball et que le maillot dit 'All-Star', alors c'est probablement le match des étoiles de la MLB."

Le problème, c'est que les modèles d'intelligence artificielle actuels (les "cerveaux" numériques) ont tendance à apprendre ces deux compétences séparément, comme si on entraînait d'abord l'œil, puis le cerveau, sans jamais les faire travailler ensemble.

Voici l'explication simple de la découverte de ce papier, ToR (Token Reweighting), en utilisant des analogies du quotidien.

1. Le Problème : L'Équipe en désaccord

Dans une réponse générée par une IA multimodale, il y a deux types de "mots-clés" (appelés tokens) :

Les mots "Yeux" : Ceux qui décrivent ce qu'ils voient dans l'image.
Les mots "Cerveau" : Ceux qui construisent la logique et le raisonnement.

Les chercheurs ont découvert un problème curieux : si vous essayez d'entraîner l'IA uniquement à être meilleure en "yeux" (perception), elle devient très bonne pour décrire l'image, mais elle oublie comment raisonner. Elle devient comme un photographe qui décrit parfaitement une photo mais ne comprend pas l'histoire derrière.

À l'inverse, si vous l'entraînez uniquement à être meilleure en "cerveau" (raisonnement), elle devient très logique, mais elle commence à halluciner des détails dans l'image. C'est comme un détective très brillant qui déduit une histoire incroyable, mais qui a mal vu les indices sur la scène de crime.

L'analogie du Duo Musical :
Imaginez un duo de musique où l'un joue du piano (la vision) et l'autre chante (le raisonnement).

Si vous forcez le pianiste à jouer plus fort, le chanteur se tait et la chanson devient bizarre.
Si vous forcez le chanteur à chanter plus fort, le pianiste s'arrête et la mélodie est perdue.
Le résultat : Pour avoir une belle chanson, il faut que les deux jouent ensemble, au bon moment, avec le bon volume.

2. La Solution : Le Chef d'Orchestre (ToR)

Les auteurs proposent une méthode appelée ToR (Token Reweighting). C'est comme donner un chef d'orchestre à l'IA pendant son entraînement.

Au lieu de dire à l'IA : "Entraîne-toi sur tout" ou "Entraîne-toi seulement sur la musique", le chef d'orchestre écoute chaque note (chaque mot) et dit :

"Toi, mot 'piano', tu es crucial ici, joue plus fort !" (C'est un mot de perception important).
"Toi, mot 'chanteur', tu es crucial ici, chante plus fort !" (C'est un mot de raisonnement important).
"Toi, mot 'bruit de fond', tu peux te taire un peu."

Comment ça marche techniquement (en simplifié) ?
Le système analyse deux choses à chaque mot :

L'incertitude du cerveau : Est-ce que le mot est un moment de décision difficile ? (Ex: "Est-ce que c'est un match ou un entraînement ?"). Si oui, on le renforce.
La sensibilité de l'œil : Est-ce que ce mot change si on enlève la photo ? Si le mot dépend de l'image, on le renforce.

Le chef d'orchestre (ToR) ajuste le volume de ces deux types de mots pour qu'ils travaillent en harmonie.

3. Le Résultat : Une Synergie Parfaite

Grâce à cette méthode, l'IA apprend à voir pour raisonner et à raisonner pour mieux voir.

Avant ToR : L'IA était comme un athlète qui s'entraînait soit à courir, soit à sauter, mais pas aux deux en même temps. Elle était moyenne dans les deux.
Après ToR : L'IA devient un décathlonien. Elle voit les détails de l'image (les maillots, les joueurs) ET elle les utilise parfaitement pour construire un raisonnement logique solide.

En résumé

Ce papier nous apprend que pour qu'une intelligence artificielle soit vraiment intelligente face à une image, on ne peut pas séparer la vue de la pensée. Il faut les entraîner ensemble, en donnant la priorité aux moments clés où l'IA doit voir et aux moments où elle doit réfléchir.

C'est comme apprendre à un enfant à conduire : on ne lui apprend pas juste à regarder la route (perception) ni juste à tourner le volant (raisonnement). On lui apprend à faire les deux en même temps, en ajustant son attention selon ce qui est le plus important à chaque seconde. C'est exactement ce que fait ToR.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'extension du Reinforcement Learning with Verifiable Rewards (RLVR) aux grands modèles de langage multimodaux (MLLMs) se heurte à un défi fondamental : l'interdépendance intrinsèque entre les capacités de perception (ancrage visuel) et de raisonnement (chaînes de déduction symbolique).

Nature du problème : Dans les réponses générées par un MLLM, les tokens liés à la perception (décrivant le contenu visuel) et les tokens liés au raisonnement (construisant la logique) sont naturellement entrelacés.
Limitation des approches actuelles : Les méthodes existantes optimisent souvent ces capacités de manière isolée (soit en se concentrant uniquement sur le raisonnement via des objectifs Chain-of-Thought, soit sur la perception via des augmentations visuelles).
Hypothèse centrale : Les auteurs postulent que cette optimisation séparée est sous-optimale car la perception et le raisonnement sont couplés au niveau des tokens. Optimiser l'un sans l'autre dégrade la performance globale : un raisonnement sans ancrage visuel conduit à des hallucinations, tandis qu'une perception sans raisonnement ne permet pas de résoudre des tâches complexes.

2. Méthodologie : Token Reweighting (ToR)

Pour résoudre ce problème, les auteurs proposent ToR (Token Reweighting), une stratégie légère et "plug-and-play" qui rééquilibre dynamiquement l'importance des tokens durant l'entraînement RLVR.

A. Identification des Tokens Critiques

Le système identifie deux types de tokens essentiels en utilisant des signaux intrinsèques du modèle :

Tokens de Raisonnement (Reasoning-related) : Identifiés par une entropie prédictive élevée. Ces tokens correspondent aux points de décision incertains ou aux "fourches" dans la chaîne de raisonnement, où le modèle hésite entre plusieurs options logiques.
Tokens de Perception (Perception-related) : Identifiés par une sensibilité visuelle élevée. Cela est mesuré par la différence de log-probabilité d'un token lorsque le modèle est conditionné par l'image par rapport à un contexte textuel vide (sans image). Une grande différence indique une forte dépendance à l'entrée visuelle.

B. Mécanisme de Rééquilibrage

Au lieu de masquer les gradients pour les tokens non sélectionnés (comme dans les études d'ablation), ToR applique des poids spécifiques ( $\gamma_r$ pour le raisonnement, $\gamma_p$ pour la perception) lors du calcul du gradient de la politique.

Formulation : L'objectif d'optimisation (basé sur GRPO ou DAPO) est modifié pour pondérer les tokens critiques. Les tokens hors de ces ensembles reçoivent un poids nul pour le calcul de l'avantage.
Équilibre : La méthode force le modèle à réduire l'incertitude sur les points de décision critiques tout en renforçant l'ancrage visuel, modélisant explicitement leur interdépendance.

3. Contributions Clés

Analyse Empirique de l'Interdépendance : Les auteurs démontrent expérimentalement que l'optimisation isolée (soit uniquement sur les tokens de raisonnement, soit uniquement sur ceux de perception) conduit systématiquement à une baisse de performance par rapport à l'optimisation complète, confirmant le couplage des capacités.
Stratégie ToR : Introduction d'un module rééquilibrant les tokens qui s'intègre nativement aux algorithmes RLVR existants (GRPO, DAPO) sans nécessiter de modifications complexes du pipeline.
Auto-contenu : L'identification des tokens repose uniquement sur les signaux internes du modèle (entropie et sensibilité visuelle), éliminant le besoin de priors externes ou de données annotées manuellement.

4. Résultats Expérimentaux

Les expériences ont été menées sur le modèle Qwen2.5-VL-7B (et 3B) avec des données d'entraînement issues de Geometry3K et évaluées sur plusieurs benchmarks.

Performance Supérieure : ToR améliore systématiquement les performances des bases RLVR (GRPO et DAPO).
- Sur MathVerse, ToR-GRPO passe de 50,8 à 53,0.
- Sur HalluBench (mesure des hallucinations visuelles), ToR-GRPO passe de 69,8 à 72,4.
- Sur WeMath, les gains sont également significatifs (67,4 $\to$ 68,9 pour GRPO).
Robustesse et Généralisation :
- La méthode fonctionne aussi bien sur des modèles plus petits (Qwen-2.5-VL-3B) que sur des versions plus grandes.
- Elle reste efficace lors de l'augmentation de la taille des données (de 2,1k à 39k échantillons).
Études d'Ablation :
- L'optimisation exclusive de tokens de raisonnement ou de perception échoue à atteindre les performances de l'optimisation conjointe.
- Un poids de perception $\gamma_p = 0,5$ (avec $\gamma_r = 1,0$ ) s'est avéré être un compromis optimal pour la plupart des tâches.

5. Signification et Impact

Cet article apporte une contribution majeure à la compréhension de l'apprentissage par renforcement dans les modèles multimodaux :

Changement de Paradigme : Il démontre que la séparation artificielle entre "perception" et "raisonnement" est contre-productive. L'amélioration de l'un nécessite l'optimisation conjointe de l'autre.
Efficacité de l'Entraînement : ToR permet d'obtenir des performances de pointe (SOTA) avec moins de données d'entraînement et une configuration plus simple, en se concentrant sur les tokens les plus informatifs.
Réduction des Hallucinations : En forçant le modèle à accorder de l'importance aux tokens visuels critiques tout en raisonnant, la méthode réduit les erreurs d'interprétation visuelle (hallucinations) tout en maintenant la cohérence logique.

En conclusion, Token Reweighting offre une solution élégante et efficace pour aligner les capacités de perception et de raisonnement des MLLM, permettant de dépasser les limitations des approches actuelles qui traitent ces compétences de manière disjointe.