Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Het Probleem: De "Blinde" Rekenmeester

Stel je voor dat je een slimme robot hebt die wiskundige problemen oplost met plaatjes. Deze robot is erg goed in het bedenken van stappen om een antwoord te vinden. Maar soms maakt hij een fout: hij denkt dat er in een tekening een gat is, terwijl er geen gat is. Omdat hij op die verkeerde gedachte verder bouwt, is zijn hele oplossing fout, ook al is de rest van zijn redenering perfect.

Tot nu toe hadden we een "rekenmeester" (een AI die de stappen van de robot controleert) die ook naar het plaatje keek. Maar deze rekenmeester was soms net zo verward als de robot zelf. Als de robot dacht dat er een gat was, en de rekenmeester keek ook naar het plaatje, kon het zijn dat de rekenmeester ook dacht dat er een gat was. Dan gaf hij een goed cijfer voor een fout antwoord. Of andersom: hij gaf een slecht cijfer voor een goed antwoord, omdat hij zelf het plaatje verkeerd las.

Het was alsof je twee mensen in een donkere kamer hebt die proberen een schilderij te beschrijven. Als ze allebei verkeerd kijken, denken ze dat ze het goed hebben.

💡 De Oplossing: EVPV (De "Visuele Checklist")

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd EVPV. Ze noemen dit "Het scoren grondig maken".

Stel je voor dat de robot nu niet alleen het antwoord mag geven, maar ook een visuele checklist moet invullen voordat hij verder gaat.

De Robot (Beleid): "Ik ga nu een stap doen. Daarvoor heb ik nodig dat ik zie dat de cirkel een straal van 5 heeft."
De Controleur (EVPV): "Wacht even! Ik heb een onafhankelijke 'meetapparaat' dat het plaatje al heeft gescand. Dat apparaat zegt: 'Er is een cirkel, maar de straal is 3'."

Hierdoor ontstaat er een duidelijk onderscheid:

De Checklist: Wat denkt de robot dat hij ziet?
De Onafhankelijke Scan: Wat zegt de harde data uit het plaatje?

⚖️ Hoe het werkt: De "Vertrouwens-Filter"

Het systeem werkt als een slimme poortwachter:

De Checklist: De robot schrijft op wat hij ziet (bijv. "De lijn is rood").
De Scan: Een apart programma scant het plaatje en maakt een lijstje met feiten (bijv. "De lijn is blauw").
De Vergelijking: Het systeem vergelijkt de checklist met de scan.
- Komt het overeen? Dan is de "visuele betrouwbaarheid" hoog. De rekenmeester mag zijn oordeel geven over de logica.
- Komt het niet overeen? Dan is de "visuele betrouwbaarheid" laag. De rekenmeester krijgt een signaal: "Hé, je basis is verkeerd! Ik ga je cijfer voor deze stap niet vertrouwen, of ik maak het neutraal."

Dit is als een kwaliteitscontroleur in een fabriek. Als een werknemer zegt: "Ik heb deze bout vastgedraaid," kijkt de controleur niet alleen naar de werknemer, maar eerst naar de bout zelf. Als de bout los zit, geeft de controleur de werknemer geen compliment voor zijn "vaste hand", want de basis is niet goed.

🚀 Waarom is dit zo belangrijk?

Geen "Blind Vertrouwen": Het systeem voorkomt dat een robot een fout antwoord krijgt omdat hij een plaatje verkeerd las, maar de logica erachter wel klopte.
Sneller en Slimmer: In plaats van dat de robot bij elke stap een dure, langzame tool moet gebruiken om het plaatje opnieuw te bekijken (wat veel tijd kost), doet het systeem dit één keer aan het begin en gebruikt die "scan" voor de hele oplossing.
Betere Keuzes: Als de robot 8 verschillende oplossingen bedenkt, helpt dit systeem om de beste oplossing te kiezen. Het filtert die 7 oplossingen eruit die gebaseerd zijn op hallucinaties (verzonnen plaatjes), en laat de écht goede oplossing over.

🏁 Conclusie

Kortom: EVPV zorgt ervoor dat een slimme robot eerst zijn ogen openhoudt voordat hij zijn hersenen gebruikt. Het scheidt het probleem "Ik zie het verkeerd" van het probleem "Ik redeneer verkeerd".

Door een checklist te maken en die te vergelijken met een onafhankelijke scan, krijgen we een veel betrouwbaarder systeem dat minder snel in de valkuil van "verzonnen feiten" trapt. Het is alsof je een rechter hebt die eerst de getuigenis checkt tegen de bewijsstukken, voordat hij een vonnis velt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Grounding the Score: Expliciete Visuele Premise-Verificatie voor Betrouwbare VLM Process Reward Models

Auteurs: Junxin Wang et al. (Alibaba, Chinese Academie van Wetenschappen, Beijing University of Posts and Telecommunications)

1. Het Probleem: De Verwarring tussen Perceptie en Redenering

Visueel-taalmodellen (VLM's) die wiskundige redenering uitvoeren, moeten twee complexe taken combineren: visuele perceptie (diagrammen lezen, waarden uit tabellen halen, OCR) en symbolische redenering (logische afleiding en berekening).

Huidige Process Reward Models (PRM's) worden gebruikt om tussentijdse redeneerstappen te scoren en kandidaat-oplossingen te herschikken (bijv. bij Best-of-N strategieën). Een fundamenteel probleem is echter dat deze modellen vaak functioneren als "black-box" rechters:

Een lage score voor een stap kan betekenen dat de redenering fout is, of dat de verifier zelf de afbeelding verkeerd heeft geïnterpreteerd.
Dit leidt tot systematische fouten:
- False Positives: Het belonen van stappen die vloeiend klinken maar gebaseerd zijn op hallucinaties (bijv. het aannemen van een "cilindrisch gat" dat er niet is).
- False Negatives: Het straffen van correcte, op de afbeelding gebaseerde uitspraken omdat de verifier de visuele context niet goed heeft begrepen.

Deze verwarring tussen perceptie en logica ondermijnt de betrouwbaarheid van foutlokaliseren en het selecteren van de beste oplossing, vooral bij complexe visuele taken.

2. Methodologie: EVPV (Explicit Visual Premise Verification)

De auteurs introduceren EVPV, een lichtgewicht verificatie-interface die de scoring van redeneerstappen conditioneert op de betrouwbaarheid van de visuele premises waar die stappen op gebaseerd zijn. De aanpak ontkoppelt perceptuele onzekerheid van logische evaluatie zonder dure tool-aanroepen per stap.

Het proces bestaat uit drie kerncomponenten:

A. Stapsgewijze Visuele Checklist

Het beleid (policy model) wordt geprompt om bij elke redeneerstap $s_t$ een korte visuele premisse-verklaring ( $d_t$ ) te genereren.

Als een stap afhankelijk is van visuele informatie (bijv. "de straal is 2"), wordt dit expliciet gemaakt in een checklist.
Dit maakt impliciete visuele aannames expliciet en controleerbaar.

B. Gestructureerde Visuele Bewijzen (Constraints)

Parallel aan de redenering wordt een constraint extractor ( $E_\phi$ ) gebruikt om eenmalig gestructureerde visuele feiten uit de afbeelding te halen. Deze worden opgeslagen als een set $C$ in een JSON-schema, waaronder:

Numerieke waarden (lengtes, hoeken, tabelwaarden).
Relaties (parallel, loodrecht, gelijkheid).
Compositiestructuur (onderdelen, verbindingen).
Belangrijk: Tijdens inferentie worden alleen deze voorspelde constraints gebruikt; er zijn geen "gold standard" feiten nodig.

C. Consistentie-naar-Betrouwbaarheid en Gating

De checklist van het beleid wordt vergeleken met de geëxtraheerde constraints om een visuele betrouwbaarheidsscore ( $r$ ) te berekenen.

Een matching-functie bepaalt of de claims in de checklist worden ondersteund door de constraints.
De score $r$ wordt berekend als een geometrisch gemiddelde van de individuele match-scores. Dit maakt het systeem gevoelig voor catastrofale fouten: als één cruciale premisse niet klopt, daalt de totale betrouwbaarheidsscore sterk.

Calibratie van Rewards (Gating):
De uiteindelijke stapbeloning ( $R_t$ ) wordt aangepast op basis van $r$ :

Voor stappen die niet visueel afhankelijk zijn, blijft de basisbeloning ( $R_{base}$ ) ongewijzigd.
Voor visueel afhankelijke stappen wordt de beloning vermenigvuldigd met een gating-factor $\alpha(r)$ $α (r)$ .
- Als $r$ laag is (onbetrouwbare premisse), wordt de beloning naar neutraal getrokken (vermijdt overtuigde fouten).
- Als $r$ hoog is, blijft de beloning behouden.

Dit zorgt ervoor dat een verifier niet te streng of te mild oordeelt op basis van visuele hallucinaties.

3. Belangrijkste Bijdragen

Entanglement Oplossen: EVPV lost het probleem op van het verwarren van perceptiefouten met redeneringsfouten door expliciete verificatie van visuele premises.
Lichtgewicht Architectuur: In tegenstelling tot methoden die per stap externe tools aanroepen (zoals TIM-PRM), extraheert EVPV de visuele feiten slechts één keer per probleem, wat zeer schaalbaar is voor Best-of-N inferentie.
Causaal Bewijs: De auteurs tonen aan dat prestatieverbeteringen direct causaal samenhangen met de kwaliteit van de geëxtraheerde constraints. Gecontroleerde corruptie van deze constraints leidt tot een monotoon prestatieverlies, wat aantoont dat het succes komt van de verificatie en niet van toevallige prompt-effecten.
Open Source: De code en modellen zijn open-source beschikbaar gesteld.

4. Resultaten

De methode is geëvalueerd op VisualProcessBench en zes andere multimodale redeneringsbenchmarks (zoals MathVista, MMMU, LogicVista).

Stap-niveau Verificatie: EVPV-PRM bereikte de hoogste Macro-F1-score op VisualProcessBench (67,46%), wat een significante verbetering is ten opzichte van sterke baselines zoals VisualPRM (62,00%) en TIM-PRM (61,70%).
Best-of-N Herschikking: Bij het herschikken van 8 kandidaat-oplossingen (BoN@8) met InternVL2.5-modellen, leverde EVPV consistente verbeteringen op.
- Voor het 8B-model: +8,83% verbetering ten opzichte van de basis.
- Voor het 38B-model: +9,78% verbetering.
- De verbeteringen waren het grootst op benchmarks waar visuele misinterpretaties de dominante foutbron zijn.
Robuustheid: De methode presteerde goed over verschillende modelgroottes en bleek minder gevoelig voor hallucinaties dan traditionele PRM's.

5. Betekenis en Toekomstperspectief

Deze studie markeert een verschuiving in hoe we visuele redenering verifiëren. In plaats van te vertrouwen op een enkel model dat zowel ziet als redeneert (en daardoor fouten maakt), introduceert EVPV een modulaire verificatielaag.

Betrouwbaarheid: Het maakt process-supervisie betrouwbaarder onder omstandigheden met perceptiefouten.
Efficiëntie: Het biedt een praktische oplossing voor het schalen van test-tijd berekeningen zonder de hoge kosten van tool-integratie per stap.
Toekomst: De auteurs wijzen op beperkingen, zoals de afhankelijkheid van de kwaliteit van de geëxtraheerde constraints. Toekomstig werk richt zich op onzekerheidsbewuste constraint-extractie en het integreren van deze premisse-bewuste beloningen in het trainingsproces zelf.

Kortom, EVPV biedt een fundamentele verbetering voor de betrouwbaarheid van multimodale AI-systemen door visuele feiten expliciet te maken en te verifiëren voordat logische oordelen worden geveld.