Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot très intelligent (un modèle de langage visuel) comment résoudre des énigmes complexes en regardant des images. Ce robot doit non seulement "voir" l'image, mais aussi "penser" à voix haute (c'est ce qu'on appelle la "chaîne de pensée" ou Chain-of-Thought) avant de donner sa réponse.

Le problème, c'est que les méthodes actuelles pour entraîner ce robot sont un peu comme un professeur qui ne donne qu'une note globale à un élève à la fin d'un examen, sans regarder comment il a raisonné. Si l'élève se trompe, le professeur ne sait pas s'il a mal vu l'image ou s'il a fait une erreur de logique dans son calcul.

Voici comment l'article PEPO (Perception-Exploration Policy Optimization) change la donne, expliqué simplement :

1. Le Problème : Un entraînement trop "gros"

Actuellement, les méthodes d'apprentissage (comme GRPO) traitent tous les mots de la réponse du robot de la même manière. C'est comme si, lors d'un match de football, on donnait le même score à tout l'équipe, qu'un joueur ait marqué le but décisif ou qu'un autre ait juste couru sur le terrain sans faire grand-chose.
Dans le cas des images, cela signifie que le robot ne sait pas distinguer les moments où il doit regarder attentivement l'image (perception) des moments où il doit imaginer plusieurs possibilités (exploration).

2. La Solution : PEPO, le coach qui observe chaque geste

Les auteurs ont créé une nouvelle méthode appelée PEPO. Imaginez un coach de sport très attentif qui ne note pas seulement le résultat final, mais qui analyse chaque mouvement de l'athlète en temps réel.

PEPO fonctionne en deux temps, comme un duo de super-héros :

Le Super-Héros "Perception" (L'œil attentif) :
Ce héros vérifie à chaque mot que le robot prononce : "Est-ce que ce mot est bien ancré dans ce que je vois ?".
- Analogie : C'est comme si le robot portait des lunettes spéciales qui lui disent : "Ce mot 'triangle' est très lié à la forme que tu vois sur l'image, donc c'est un mot important !".
- PEPO calcule une "similarité" entre ce que le robot pense et ce qu'il voit. Si c'est fort, le mot reçoit une note élevée.
Le Super-Héros "Exploration" (L'esprit curieux) :
Ce héros vérifie : "Est-ce que le robot est sûr de lui ici ?".
- Analogie : C'est comme si le robot hésitait entre deux chemins. S'il est très incertain (l'incertitude est élevée, ou "entropie" élevée), cela signifie qu'il explore de nouvelles idées. PEPO encourage cette hésitation constructive, car parfois, c'est en doutant qu'on trouve la meilleure solution.

3. La Magie : Le "Porte" intelligente

La vraie innovation de PEPO, c'est la façon dont il combine ces deux super-héros. Il utilise une "porte" intelligente (un mécanisme mathématique appelé gating) qui décide, mot par mot, combien de poids donner à la vision et combien à l'incertitude.

Si le robot regarde une image et dit "voici un arbre", la Perception est forte, donc ce mot est très valorisé.
Si le robot dit "peut-être que c'est un arbre, ou peut-être un poteau", l'Exploration est forte, et ce mot est aussi valorisé pour encourager la réflexion.
PEPO s'assure que le robot ne se contente pas de deviner au hasard (trop d'exploration) ni de regarder bêtement l'image sans réfléchir (trop de perception). Il trouve l'équilibre parfait.

4. Les Résultats : Un robot plus intelligent et plus stable

Grâce à cette méthode, le robot apprend beaucoup mieux :

En géométrie : Il ne se trompe plus en confondant les angles d'un dessin.
En énigmes visuelles : Il résout des puzzles complexes en reliant mieux les indices visuels à la logique.
En classification : Il reconnaît mieux des objets rares (comme des fleurs ou des avions) même avec peu d'exemples.

En résumé

Imaginez que vous apprenez à conduire.

Les anciennes méthodes vous disaient : "Tu as eu un accident, recommence tout."
PEPO, c'est comme un moniteur de conduite qui vous dit : "À ce moment précis, tu as bien regardé le piéton (Perception), mais tu as hésité trop longtemps sur le virage (Exploration). La prochaine fois, garde ton regard sur la route, mais sois plus confiant dans tes décisions."

C'est cette attention aux détails, mot par mot, qui permet au robot de devenir un véritable expert en raisonnement visuel, sans avoir besoin de plus de données ou de calculs compliqués. C'est une optimisation fine, intelligente et efficace.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage-vision (LVLM) ont fait des progrès significatifs dans les tâches de raisonnement multimodal, souvent en utilisant l'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour optimiser les chaînes de pensée (CoT). Cependant, les méthodes existantes, telles que GRPO (Group Relative Policy Optimization) et DAPO, souffrent de limitations majeures :

Granularité trop coarse : Elles optimisent le raisonnement au niveau de la séquence entière, attribuant la même récompense (ou avantage) à tous les tokens d'une réponse. Cela ignore le fait que certains tokens sont cruciaux pour l'ancrage visuel (perception) tandis que d'autres servent à l'exploration logique.
Manque de discrimination visuelle : Les approches basées sur l'entropie (pour encourager l'exploration) capturent l'incertitude textuelle mais ne correspondent pas bien aux sémantiques visuelles. À l'inverse, les méthodes "perception-aware" existantes introduisent souvent des branches auxiliaires coûteuses ou des masques qui complexifient l'entraînement.
Désalignement perception-raisonnement : Les LVLMs raisonnent sous contraintes multimodales où la perception visuelle et la dynamique d'exploration jouent des rôles complémentaires. Les méthodes actuelles échouent à coupler finement ces deux aspects au niveau du token.

2. Méthodologie : PEPO (Perception-Exploration Policy Optimization)

Les auteurs proposent PEPO, un cadre d'optimisation de politique au niveau des tokens qui intègre la perception visuelle et l'exploration sans nécessiter de supervision supplémentaire ni de branches auxiliaires.

A. Analyse au niveau des tokens

Une analyse préliminaire sur le jeu de données Geometry3K révèle deux dynamiques clés :

Tokens ancrés visuellement (Perception) : Les réponses correctes dépendent fortement d'un sous-ensemble compact de tokens dont l'état caché est fortement corrélé aux tokens visuels.
Tokens à haute entropie (Exploration) : Les tokens à forte entropie correspondent souvent à des points de décision, de vérification ou de transition dans le raisonnement, indiquant une incertitude nécessitant l'exploration de plusieurs chemins.

B. Architecture de PEPO

Le cadre PEPO se déroule en trois étapes principales pour chaque token de réponse $t$ dans une réponse $i$ :

Modélisation de la Perception (Similarité Visuelle) :
Au lieu d'utiliser des branches auxiliaires, PEPO calcule la similarité cosinus entre l'état caché du token de réponse $h_{l,t}$ et l'ensemble des états des tokens visuels $v_{l,n}$ à travers toutes les couches $L$ du modèle :
$VS_t = \frac{1}{L} \sum_{l=1}^{L} \frac{1}{N} \sum_{n=1}^{N} \frac{\langle h_{l,t}, v_{l,n} \rangle}{\|h_{l,t}\| \|v_{l,n}\|}$
Cette métrique sert d'indicateur de "grounding" (ancrage) visuel.
Modélisation de l'Exploration (Entropie) :
L'entropie $H_t$ est calculée à partir des logits de sortie du modèle pour capturer l'incertitude du token.
Fusion par Portail Doux (Smooth Gating) :
PEPO fusionne la similarité visuelle et l'entropie via un mécanisme de portail pour générer un poids de token $w_t$ .
- Les scores sont normalisés (min-max).
- Une fonction de portail lisse combine les deux, en s'assurant que l'entropie module le poids uniquement si le token est déjà ancré visuellement (évitant ainsi d'amplifier l'entropie sur des tokens visuellement non pertinents).
- Le poids final est recalibré pour que sa moyenne soit égale à 1, préservant l'échelle globale de l'avantage.
Avantage au niveau du Token :
L'avantage de séquence $A^{(i)}$ (calculé par GRPO ou DAPO) est réparti en avantages au niveau des tokens $A^{(i)}_t$ :
$A^{(i)}_t = [(1 - \lambda) + \lambda w^{(i)}_t] A^{(i)}$
où $\lambda$ est un paramètre de modulation qui augmente progressivement durant l'entraînement. Cela permet d'orienter les mises à jour du gradient vers les tokens à la fois ancrés visuellement et exploratoires.

3. Contributions Clés

Première analyse des rôles complémentaires : C'est la première étude à identifier et exploiter le rôle complémentaire des tokens ancrés visuellement (qui ancrent le raisonnement) et des tokens à haute entropie (qui pilotent l'exploration) dans les LVLMs.
Cadre PEPO : Proposition d'une méthode d'optimisation de politique au niveau des tokens qui dérive un prior de perception à partir de la similarité des états cachés (sans supervision) et l'intègre avec l'entropie via un mécanisme de portail lisse.
Intégration transparente : PEPO s'intègre nativement aux frameworks RLVR existants (GRPO, DAPO) avec une surcharge computationnelle négligeable (< 1%), sans nécessiter de modifications architecturales majeures.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles comme Qwen2.5-VL-3B et InternVL3-2B à travers plusieurs benchmarks :

Raisonnement Géométrique et Mathématique : Sur Geometry3K, MathVista, MathVerse et LogicVista, PEPO améliore les performances par rapport à GRPO de +3.67 points (sur Qwen2.5-VL-3B) et de +3.51 points (sur InternVL3-2B). Les gains sont particulièrement nets sur les tâches nécessitant un raisonnement visuel et symbolique intégré.
Ancrage Visuel (Visual Grounding) : Sur RefCOCO et LISA-Grounding, PEPO améliore le score IoU@50 de +0.86, tout en évitant l'effondrement de l'optimisation observé avec les méthodes basées uniquement sur l'entropie.
Classification Few-Shot : Sur FGVC Aircraft et Flower102, PEPO surpasse GRPO avec des gains de +5.32 et +1.46 points respectivement, démontrant une meilleure généralisation avec peu de données.
Raisonnement par Énigmes Visuelles : Des améliorations constantes sont observées sur PuzzleVQA et AlgoPuzzleVQA, y compris en dehors du domaine d'entraînement.
Efficacité et Stabilité : L'analyse de l'efficacité montre que PEPO maintient un débit (throughput) comparable à GRPO avec une surcharge de calcul inférieure à 1%. Les courbes d'entraînement indiquent une convergence plus stable et une meilleure alignement visuel au fil du temps.

5. Signification et Impact

Ce travail marque un tournant dans l'optimisation des LVLMs en passant d'une supervision au niveau de la séquence à une optimisation au niveau du token.

Principe fondamental : Il démontre que le raisonnement multimodal efficace repose sur un équilibre dynamique entre l'ancrage perceptif (s'assurer que le modèle "voit" ce dont il parle) et l'exploration (explorer différentes voies de raisonnement).
Efficacité : En évitant les branches auxiliaires complexes, PEPO offre une solution scalable et légère pour améliorer les capacités de raisonnement des modèles multimodaux existants.
Généralisation : La méthode prouve sa robustesse sur des tâches variées (géométrie, logique, localisation, classification), suggérant qu'elle pourrait être applicable à une large gamme de problèmes de raisonnement multimodal futurs.

En résumé, PEPO propose une approche élégante et efficace pour "rééquilibrer" l'apprentissage par renforcement des LVLMs, en s'assurant que chaque token de la chaîne de pensée reçoit le signal d'optimisation approprié selon son rôle perceptif ou exploratoire.