Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un genio matematico (l'Intelligenza Artificiale) che sta cercando di risolvere un problema complesso guardando un disegno o un grafico. Il genio è molto bravo a fare calcoli e logica, ma a volte è un po' distratto quando guarda il disegno: potrebbe leggere male un numero, confondere una forma o immaginare cose che non esistono.

Per aiutare questo genio, abbiamo un giudice (il modello di ricompensa, o PRM) che deve controllare ogni singolo passaggio della soluzione e dire: "Bravo, questo passaggio è giusto" oppure "No, qui hai sbagliato".

Il Problema: Il Giudice "Sognatore"

Il problema attuale è che il giudice è un po' come un sognatore confuso.
Se il genio dice: "Guarda, c'è un buco cilindrico qui!" (ma in realtà nel disegno non c'è), il giudice potrebbe dire: "Mmm, il ragionamento logico su quel buco è perfetto, quindi ti do un punto!".
Oppure, se il genio dice: "C'è un triangolo rosso" (ed è vero), ma il giudice, per sbaglio, non vede il rosso, potrebbe dire: "No, hai sbagliato!".

In pratica, il giudice fa confusione tra vedere (percezione) e ragionare (logica). Se il giudice non vede bene, punisce le risposte giuste o premia quelle sbagliate. Questo è come avere un arbitro di calcio che non vede il pallone: fischia un fallo dove non c'è, o non vede un gol.

La Soluzione: EVPV (La "Lista della Spesa" Visiva)

Gli autori di questo paper hanno inventato un sistema chiamato EVPV (Verifica Esplicita delle Premesse Visive). Immaginalo come un nuovo modo di lavorare in squadra:

La Lista della Spesa (Checklist): Prima di fare un calcolo, il genio è obbligato a scrivere una piccola "lista della spesa" visiva. Deve dire esplicitamente: "Per fare questo passaggio, ho bisogno di vedere che il cerchio ha raggio 5 e che la linea è verticale".
L'Ispezione Indipendente (Il Controllore): Parallelamente, un altro sistema (un ispettore robotico) guarda il disegno originale e crea una lista di fatti strutturata basata solo su ciò che vede davvero (es. "Il raggio è 5", "La linea è verticale").
Il Confronto: Ora, il sistema confronta la "Lista della Spesa" del genio con la "Lista dei Fatti" dell'ispettore.
- Se la lista del genio corrisponde alla realtà: "Ok, la base è solida! Ora giudico la logica."
- Se il genio ha inventato un buco cilindrico che non esiste: "Stop! La base è crollata. Non importa quanto sia bella la logica successiva, questo passaggio vale zero (o quasi)."

L'Analogia del Ponte

Immagina di dover costruire un ponte (la soluzione matematica).

Il vecchio sistema: Il giudice guardava solo se le travi del ponte erano ben saldate tra loro (la logica). Se le travi erano saldate, il ponte era "giusto", anche se le fondamenta erano state costruite su una nuvola (un'immagine sbagliata).
Il nuovo sistema (EVPV): Prima di guardare le travi, il giudice controlla le fondamenta. Se le fondamenta sono su una nuvola (premessa visiva sbagliata), il giudice dice: "Non giudico nemmeno le travi, il ponte crollerà comunque". Se le fondamenta sono solide, allora giudica la qualità delle saldature.

Perché è Geniale?

Non serve un nuovo supercomputer: È un sistema leggero. Non chiede al computer di fare controlli visivi costosi per ogni singolo passaggio, ma fa un controllo rapido all'inizio e poi usa quel risultato per "silenziare" o "amplificare" il giudizio.
Risparmia tempo e denaro: Nei test attuali, per trovare la risposta migliore, si fanno molte prove (come tirare 8 dadi e scegliere il risultato migliore). Con questo sistema, si scartano subito le prove che partono da fondamenta false, risparmiando energia.
Risultati migliori: Gli esperimenti mostrano che, usando questo metodo, l'AI sbaglia meno e trova la soluzione corretta molto più spesso, specialmente quando i problemi sono pieni di grafici e numeri da leggere.

In Sintesi

Questo paper ci insegna che non puoi avere una logica perfetta se la tua percezione della realtà è sbagliata.
Hanno creato un "freno di sicurezza" che controlla se l'AI sta guardando davvero il disegno o se sta allucinando cose. Se l'AI sta sognando, il sistema abbassa il voto; se l'AI sta vedendo davvero, il sistema dà il voto pieno alla logica. È come insegnare a un giudice a togliere gli occhiali da sole prima di fare un'arbitraggio: così vede la verità e non i sogni.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: L'Ambiguità nella Verifica Multimodale

I modelli di linguaggio visivo (VLM) stanno diventando sempre più capaci nel ragionamento matematico multimodale, che richiede la combinazione di percezione visiva (lettura di diagrammi, estrazione di dati da tabelle, OCR) e ragionamento simbolico (derivazione logica e calcolo).

Tuttavia, i modelli attuali soffrono di un collo di bottiglia critico: la grounding (ancoraggio alla realtà visiva). Un singolo errore percettivo (es. leggere male un numero o fraintendere una relazione geometrica) può invalidare l'intera catena di ragionamento, anche se i passaggi successivi sono logicamente coerenti.

I Process Reward Models (PRM) sono utilizzati per valutare i passaggi intermedi di un ragionamento e riordinare le soluzioni candidate (es. con strategie Best-of-N). Il problema fondamentale affrontato da questo lavoro è che i PRM visivi attuali agiscono come "giudici a scatola chiusa":

Un punteggio basso su un passaggio potrebbe indicare un errore logico reale oppure semplicemente che il verificatore ha frainteso l'immagine.
Questa entanglement (intreccio) tra percezione e ragionamento porta a:
- Falsi positivi: Assegnare premi a passaggi fluenti ma basati su premesse visive allucinate.
- Falsi negativi: Penalizzare affermazioni corrette perché il verificatore non le ha "viste" correttamente.
Questo compromette sia la capacità di riordinamento (reranking) che la localizzazione degli errori.

2. Metodologia: EVPV (Explicit Visual Premise Verification)

Gli autori introducono EVPV, un'interfaccia di verifica leggera che condiziona la valutazione dei passaggi alla affidabilità delle premesse visive su cui si basano. Il metodo si articola in tre fasi principali:

A. Checklist Visiva Esplicita (Step-wise Visual Checklist)

Il modello policy (quello che genera la soluzione) viene istruito a produrre, per ogni passaggio del ragionamento, una dichiarazione esplicita delle premesse visive necessarie.

Se un passaggio dipende da un fatto visivo (es. "il raggio è 2", "AB è perpendicolare a CD"), il modello genera una dichiarazione naturale.
Questo trasforma le assunzioni implicite in affermazioni verificabili indipendentemente dalla logica algebrica successiva.

B. Estrazione di Vincoli Strutturati (Structured Visual Constraints)

Parallelamente alla generazione della soluzione, un estrattore di vincoli ( $E_\phi$ ) analizza l'immagine una sola volta per estratto un insieme strutturato di fatti visivi ( $C$ ).

Questi fatti sono organizzati in uno schema JSON unificato che include: letture numeriche (lunghezze, angoli), relazioni (parallelo, perpendicolare, uguaglianza) e struttura compositiva (parti-whole, attaccamenti).
Questo set di vincoli funge da "prova indipendente" rispetto alla policy.

C. Verifica di Coerenza e Gate di Affidabilità (Consistency-to-Reliability & Gating)

EVPV confronta la checklist generata dal modello con i vincoli estratti dall'immagine:

Calcolo dell'Affidabilità ( $r$ ): Viene calcolato un punteggio di affidabilità visiva aggregando quanto le affermazioni della checklist sono supportate dai vincoli estratti. Se anche una sola premessa critica è in contraddizione (es. un valore errato), il punteggio $r$ crolla.
Gate di Affidabilità (Reliability Gating): Il reward base per un passaggio ( $R_{base}$ $R_{ba se}$ ) viene calibrato in base a $r$ $r$ :
- Se il passaggio non dipende dalla visione, il reward rimane invariato.
- Se il passaggio dipende dalla visione:
  - Se $r$ è alto (premessa verificata), il reward è preservato.
  - Se $r$ è basso (premessa non supportata o allucinazione), il reward viene attenuato verso il neutro.

Questo meccanismo disaccoppia l'incertezza percettiva dalla valutazione logica: se la premessa visiva è dubbia, il sistema non assegna punteggi estremi (positivi o negativi) basati sulla logica, evitando di destabilizzare il processo di selezione.

3. Contributi Chiave

Decoupling Percettivo-Logico: EVPV risolve l'ambiguità dei PRM tradizionali separando la domanda "il verificatore ha visto correttamente?" dalla domanda "il passaggio è logicamente corretto?".
Meccanismo Leggero: A differenza di approcci basati su tool che richiedono chiamate esterne a ogni passaggio (costose computazionalmente), EVPV estrae i vincoli una sola volta per istanza e usa un matching strutturato, rendendolo scalabile per strategie Best-of-N.
Evidenza Causale: Gli esperimenti dimostrano che i guadagni di performance derivano direttamente dalla fedeltà dei vincoli estratti e non da effetti collaterali del prompt, come dimostrato da curve di degradazione monotona quando i vincoli vengono corrotti intenzionalmente.

4. Risultati Sperimentali

Il metodo è stato valutato su VisualProcessBench e su sei benchmark di ragionamento multimodale (es. MathVista, MMMU, MathVision).

Verifica a livello di passaggio: Su VisualProcessBench, EVPV-PRM ha raggiunto il Macro-F1 più alto (67.46%) rispetto ai PRM multimodali esistenti (es. VisualPRM, TIM-PRM) e a modelli judge standard, migliorando significativamente la discriminazione dei passaggi corretti in presenza di incertezza visiva.
Miglioramenti nel Reranking (Best-of-N): Utilizzando policy InternVL2.5 (8B, 26B, 38B), EVPV ha mostrato miglioramenti consistenti nell'accuratezza finale ( $\Delta_8 = \text{BoN@8} - \text{Pass@1}$ $Δ_{8} = BoN@8 - Pass@1$ ).
- Ad esempio, con il modello 38B, EVPV ha ottenuto un miglioramento di +9.78 punti rispetto al Pass@1, superando di gran lunga i baseline.
- I guadagni sono stati particolarmente evidenti su benchmark ad alta intensità visiva come MathVista e WeMath.
Robustezza: L'analisi di ablazione ha confermato che la struttura dei dati (vincoli JSON) e l'accesso diretto all'immagine sono essenziali; la rimozione di questi componenti degrada drasticamente le prestazioni.

5. Significato e Implicazioni

Questo lavoro rappresenta un passo avanti fondamentale per l'affidabilità dei sistemi di ragionamento multimodale:

Affidabilità Operativa: Permette di deployare strategie di test-time scaling (come Best-of-N) in scenari reali con maggiore fiducia, riducendo la selezione di soluzioni che sembrano fluide ma sono basate su allucinazioni visive.
Efficienza: Offre un compromesso ottimale tra accuratezza e costo computazionale, evitando l'overhead delle chiamate a tool per ogni singolo passaggio di ragionamento.
Futuro della Ricerca: Dimostra che rendere esplicito e verificabile il "grounding" visivo è un prerequisito necessario per valutare correttamente la logica in contesti multimodali, aprendo la strada a sistemi di reward più robusti e meno sensibili alle variazioni percettive.

In sintesi, EVPV trasforma il PRM da un giudice cieco a un verificatore consapevole, assicurando che la valutazione della logica sia sempre ancorata alla realtà visiva verificata.