Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "Ancrer le Score" (Grounding the Score)

Imaginez que vous avez un juge de concours de cuisine (c'est l'IA) qui doit évaluer une recette étape par étape. Le but est de trouver la meilleure recette parmi plusieurs tentatives.

Le problème actuel, c'est que ce juge est un peu aveugle et confiant.

Si le cuisinier dit : « J'ai ajouté 2 œufs », le juge vérifie la logique de la phrase.
Mais si le cuisinier a en réalité regardé le bol et vu qu'il y avait 3 œufs, mais qu'il a écrit « 2 œufs » par erreur, le juge moderne risque de dire : « Ah, la phrase est bien écrite, c'est logique ! » et de donner un bon point.
Ou pire : si le cuisinier a bien vu 3 œufs, mais que le juge, lui-même, a mal regardé l'image du bol, il peut punir le cuisinier pour une erreur qu'il n'a pas commise.

C'est ce que les auteurs appellent le problème de la "boîte noire" : on ne sait pas si l'erreur vient du raisonnement ou d'une mauvaise vision de l'image.

🕵️‍♂️ La Solution : EVPV (Le Détective de la Réalité)

Les auteurs proposent une nouvelle méthode appelée EVPV (Vérification Explicite des Prémisses Visuelles). Voici comment ça marche, avec une analogie simple :

1. Le Cuisinier doit faire sa "Liste de Courses" (Le Checklist)

Avant de donner un bon point à une étape de la recette, on demande au cuisinier (l'IA qui résout le problème) de sortir une petite liste : « Pour cette étape, j'ai besoin de voir X, Y et Z dans l'image ».

Exemple : « Pour calculer l'aire, je dois voir que le rayon du cercle est de 5 cm. »

2. Le Juge a son propre "Scanner de Vérité" (L'Extracteur de Contraintes)

Pendant ce temps, un autre outil indépendant (un scanner automatique) regarde l'image une seule fois et crée une liste de faits bruts : « Il y a un cercle, le rayon mesure 5 cm, il y a un triangle à gauche... ». C'est la "réalité objective".

3. La Comparaison (Le Match)

Avant de noter l'étape, le système compare la Liste du Cuisinier avec la Liste du Scanner.

Si ça correspond : « Super, le cuisinier a bien vu les 5 cm ! » -> On donne le point pour la logique.
Si ça ne correspond pas : « Attends, le cuisinier dit qu'il voit 5 cm, mais le scanner dit qu'il y en a 3. » -> STOP !

4. Le Frein de Sécurité (Le "Gating")

C'est ici que la magie opère. Si le cuisinier a mal vu l'image (mauvaise prémisse visuelle), le système réduit automatiquement la note de cette étape, même si le calcul mathématique qui suit est parfait.

Analogie : C'est comme un pilote d'avion. Si le radar dit « il y a un orage » (mauvaise prémisse), on ne dit pas « le pilote a bien tourné le volant, donc c'est bon ». On dit « Attention, la base de votre décision est fausse, on ne peut pas valider la manœuvre ».

🚀 Pourquoi c'est génial ?

Moins d'hallucinations : L'IA ne peut plus se tromper en inventant des détails de l'image (comme un "trou cylindrique" qui n'existe pas) et recevoir un bon point pour ça.
Plus juste : Si l'IA a raison sur l'image mais que le juge était confus, le système de vérification indépendant corrige le tir.
Rapide et léger : Contrairement à d'autres méthodes qui demandent de vérifier l'image à chaque seconde (ce qui est lent et cher), cette méthode ne vérifie les faits visuels qu'une seule fois par problème, puis utilise cette "vérité" pour guider tout le reste.

🏆 Le Résultat

En testant cette méthode sur des problèmes de mathématiques complexes avec des images (géométrie, graphiques, tableaux), les chercheurs ont montré que :

Les IA font beaucoup moins d'erreurs de logique parce qu'elles ne partent pas de fausses bases.
Quand on demande à l'IA de choisir la meilleure solution parmi 8 tentatives (comme un concours), cette méthode permet de sélectionner la bonne réponse beaucoup plus souvent que les méthodes précédentes.

En résumé : EVPV, c'est comme donner à un juge de concours un mètre-ruban étalonné et lui dire : « Ne note la logique que si le cuisinier a bien lu les mesures avec ce mètre. Si les mesures sont fausses, la logique, aussi belle soit-elle, ne vaut rien. »

C'est une façon intelligente de séparer "voir" de "penser", pour que l'intelligence artificielle soit enfin fiable, même quand elle regarde des images compliquées.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de récompense de processus (PRM) pour les modèles de langage vision-linguistique (VLM) sont de plus en plus utilisés pour évaluer les étapes intermédiaires du raisonnement et réorganiser les candidats (par exemple, via le Best-of-N). Cependant, les PRM actuels fonctionnent souvent comme des "boîtes noires" dans les tâches multimodales.

Le problème central réside dans l'entrelacement entre la perception visuelle et le raisonnement logique.

Un PRM standard peut attribuer un score élevé à une étape de raisonnement logiquement fluide mais basée sur une prémisse visuelle hallucinée (ex: lire un chiffre erroné sur un graphique ou supposer une forme géométrique inexistante).
Inversement, il peut pénaliser une étape correcte si le vérificateur lui-même mal interprète l'image.
Cette ambiguïté entraîne des faux positifs (récompenser des hallucinations) et des faux négatifs (pénaliser des faits corrects), ce qui dégrade la fiabilité de la réorganisation des réponses et de la localisation des erreurs.

L'hypothèse de l'article est que la correction perceptuelle est une condition préalable à toute évaluation logique significative. Un raisonnement basé sur une prémisse visuelle fausse est intrinsèquement faux, quelle que soit la qualité de l'algèbre qui suit.

2. Méthodologie : EVPV (Explicit Visual Premise Verification)

Les auteurs proposent EVPV, une interface de vérification légère qui découple l'incertitude perceptive de l'évaluation logique. Le pipeline fonctionne en trois étapes clés :

A. Liste de contrôle visuelle explicite (Visual Checklist)

Pour chaque étape de raisonnement $s_t$ générée par le modèle politique (policy), le modèle est invité à produire une déclaration explicite sur les faits visuels nécessaires à cette étape.

Si l'étape dépend de l'image, le modèle génère une affirmation visuelle $d_t$ (ex: "le rayon est 2", "AB est perpendiculaire à CD").
Cela transforme des hypothèses visuelles implicites en revendications explicites vérifiables.

B. Extraction de contraintes visuelles structurées

En parallèle, un extracteur de contraintes ( $E_\phi$ ) analyse l'image d'entrée pour générer un ensemble structuré de faits visuels $C$ (contraintes).

Ces contraintes sont extraites une seule fois par problème et incluent : des lectures numériques (longueurs, angles), des relations géométriques (parallèle, perpendiculaire) et une structure compositionnelle.
L'extracteur est entraîné par distillation à partir d'un modèle enseignant fort (Qwen3-VL) et affiné via DPO (Direct Preference Optimization) pour garantir la fidélité des contraintes.

C. Vérification de cohérence et Portail de fiabilité (Reliability Gating)

Le système compare la "liste de contrôle" du modèle politique avec les "contraintes" extraites de l'image :

Calcul de fiabilité ( $r$ ) : Une fonction de matching mesure dans quelle mesure les affirmations de la liste de contrôle sont soutenues par les contraintes extraites. Un score de fiabilité global $r \in [0, 1]$ est calculé (moyenne géométrique des scores de correspondance).
Calibration des récompenses : La récompense de base ( $R_{base}$ $R_{ba se}$ ) attribuée par le vérificateur de étape est modulée par un facteur de portail $\alpha(r)$ $α (r)$ :
- Si la prémisse visuelle est fiable ( $r$ élevé), la récompense est conservée.
- Si la prémisse est peu fiable ( $r$ faible), la récompense est atténuée vers la neutralité.
- Cela empêche le système de sur-interpréter la logique d'une étape si les faits visuels sous-jacents sont erronés.

3. Contributions Clés

Découplage Perception-Raisonnement : EVPV introduit une interface explicite qui sépare la question "le vérificateur voit-il correctement ?" de "l'étape est-elle logiquement correcte ?".
Vérification sans appels d'outils par étape : Contrairement aux méthodes intégrant des outils (comme TIM-PRM) qui interrogent l'image à chaque étape (coûteux), EVPV extrait les contraintes une seule fois par problème, ce qui le rend léger et évolutif pour le Best-of-N.
Preuve Causale : Les auteurs démontrent par des expériences de corruption contrôlée que la performance du modèle dépend directement de la fidélité des contraintes extraites, prouvant que les gains ne sont pas dus à des effets de prompt accidentels.

4. Résultats Expérimentaux

Les expériences ont été menées sur VisualProcessBench et six benchmarks de raisonnement multimodal (MathVista, MathVision, MMMU, etc.).

Vérification au niveau de l'étape : Sur VisualProcessBench, EVPV-PRM atteint un Macro-F1 de 67,46 %, surpassant les PRM multimodaux de référence (VisualPRM à 62,00 %, TIM-PRM à 61,70 %). Cela indique une meilleure discrimination des étapes sous incertitude visuelle.
Gains de réorganisation (Best-of-N) : Lors de la réorganisation de 8 candidats générés par des politiques InternVL2.5 (8B, 26B, 38B), EVPV améliore systématiquement la précision BoN@8 par rapport aux bases et aux PRM existants.
- Exemple : Pour InternVL2.5-38B, le gain $\Delta_8$ (BoN@8 - Pass@1) passe de +6,30 (VisualPRM) à +9,78 avec EVPV.
Robustesse : L'ajout de bruit contrôlé aux contraintes extraites entraîne une dégradation monotone des performances, confirmant que le mécanisme repose bien sur la vérification des prémisses.
Analyse d'ablation : La suppression des faits structurés ou la conversion en texte seul fait chuter les performances, prouvant que la structure des contraintes et l'accès visuel sont indispensables.

5. Signification et Impact

Ce travail adresse un point de défaillance critique dans le raisonnement multimodal : la fragilité de la perception visuelle. En rendant les prémisses visuelles explicites et vérifiables avant d'évaluer la logique, EVPV rend les systèmes de récompense de processus plus robustes et fiables.

Pour le déploiement : La méthode permet une sélection plus fiable de solutions ancrées dans la réalité visuelle lors du test-time scaling, sans le coût computationnel prohibitif des appels d'outils répétés.
Pour la recherche : Elle établit que la validation des faits visuels est une étape nécessaire pour améliorer les capacités de raisonnement des LLM multimodaux, offrant une nouvelle direction pour la conception de vérificateurs et de modèles de récompense.

En résumé, EVPV transforme le PRM d'un juge aveugle en un vérificateur conscient des faits, garantissant que le raisonnement logique ne s'appuie que sur des bases visuelles solides.