Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der blinde Richter

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verträumten Assistenten (eine KI), der dir bei einer Matheaufgabe hilft, bei der du ein Bild ansehen musst. Der Assistent schreibt Schritt für Schritt seine Lösung auf.

Nun hast du einen zweiten Assistenten, den Richter (das sogenannte Process Reward Model oder PRM). Seine Aufgabe ist es, jeden einzelnen Schritt des ersten Assistenten zu bewerten: „Ist dieser Schritt richtig oder falsch?"

Das Problem: Der Richter ist oft blind für das Bild. Er liest nur den Text.

Szenario: Der erste Assistent schreibt: „Ich sehe einen runden Loch im Zylinder." (Aber im Bild gibt es gar kein Loch!).
Der Richter liest den Satz, findet die Grammatik perfekt und die Logik innerhalb des Satzes schlüssig, und gibt eine hohe Punktzahl.
Die Folge: Die KI lernt, dass das Erfinden von Löchern in Zylindern eine gute Idee ist. Das nennt man „Halluzinieren".

Umgekehrt passiert es auch: Der Assistent schreibt die Wahrheit, aber der Richter meint, er hätte das Bild falsch verstanden, und gibt eine niedrige Punktzahl. Das ist frustrierend und führt zu Fehlern.

Die Lösung: EVPV (Der „Checklisten-Experte")

Die Autoren dieses Papiers haben eine neue Methode namens EVPV (Explicit Visual Premise Verification) entwickelt. Stell dir das wie einen neuen Arbeitsablauf vor, bei dem der Richter nicht mehr blind ist.

Hier ist die Analogie: Der Bauingenieur und der Bauplan.

Der Assistent (Die KI) muss erst mal „Licht ins Dunkel" bringen:
Bevor der Assistent eine mathematische Rechnung macht, muss er eine Checkliste erstellen. Er muss laut sagen: „Ich brauche für diesen Schritt, dass ich im Bild eine rote Linie sehe, die 5 cm lang ist."
- Früher: Der Assistent hat das einfach im Kopf gehabt und nicht gesagt.
- Jetzt: Er muss es explizit aufschreiben.
Der Bauleiter (Der neue „Constraint Extractor"):
Parallel dazu schaut sich ein spezielles Tool das Bild an und erstellt einen objektiven Bauplan. Es misst: „Da ist eine rote Linie. Sie ist 5 cm lang. Da ist ein Zylinder." Das ist die harte, unbestechliche Wahrheit aus dem Bild.
Der Abgleich (Die Magie):
Jetzt kommt der Richter ins Spiel, aber er ist klüger geworden. Er vergleicht die Checkliste des Assistenten mit dem objektiven Bauplan.
- Fall A (Halluzination): Der Assistent sagt: „Ich sehe ein Loch." Der Bauplan sagt: „Kein Loch vorhanden."
  - Reaktion: Der Richter sagt: „Moment! Deine Basis ist falsch! Ich gebe dir für diesen Schritt keine Punkte, egal wie gut deine Rechnung danach klingt."
- Fall B (Wahrheit): Der Assistent sagt: „Ich sehe eine 5-cm-Linie." Der Bauplan sagt: „Ja, 5 cm."
  - Reaktion: Der Richter sagt: „Perfekt, die Basis stimmt. Jetzt bewerte ich deine Logik."

Warum ist das so genial?

Stell dir vor, du würdest einen Mathetest korrigieren.

Der alte Weg: Du liest die Lösung. Wenn sie gut klingt, gibst du Punkte. Wenn der Schüler aber die falsche Zahl aus dem Bild abgelesen hat, hast du das vielleicht gar nicht gemerkt, weil du dich auf die Formel konzentriert hast.
Der neue Weg (EVPV): Du sagst: „Bevor ich die Formel prüfe, zeig mir, welche Zahl du aus dem Bild genommen hast." Wenn die Zahl falsch ist, korrigierst du das sofort.

Das verhindert zwei Dinge:

Falsche Belohnung: Die KI lernt nicht, Dinge zu erfinden (Halluzinationen), die nicht im Bild sind.
Falsche Bestrafung: Die KI wird nicht bestraft, nur weil der Richter das Bild missverstanden hat.

Das Ergebnis

Die Forscher haben das an vielen Tests ausprobiert. Das Ergebnis ist, dass die KI jetzt viel zuverlässiger ist. Sie macht weniger Fehler, weil sie gezwungen wird, ihre „Augen" (die Bildanalyse) von ihrer „Logik" (der Rechnung) zu trennen und zu überprüfen, ob das, was sie sieht, wirklich da ist.

Zusammengefasst in einem Satz:
EVPV zwingt die KI, erst zu beweisen, dass sie das Bild richtig gesehen hat, bevor sie für ihre mathematischen Schritte belohnt wird – wie ein Bauleiter, der erst den Fundamentplan prüft, bevor er die Wände begutachtet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale mathematische Reasoning-Modelle (VLMs) müssen zwei eng gekoppelte, aber fehleranfällige Teilprobleme lösen: visuelle Wahrnehmung (z. B. Diagramme lesen, OCR, geometrische Relationen) und symbolisches Reasoning (logische Herleitungen).
Das Hauptproblem besteht darin, dass ein einzelner Wahrnehmungsfehler (z. B. ein falsch gelesener Wert oder eine missverstandene Struktur) die gesamte nachfolgende Herleitung unbrauchbar macht, auch wenn die logischen Schritte an sich korrekt sind.

Bestehende Process Reward Models (PRMs) bewerten einzelne Reasoning-Schritte oft als „Blackbox". Sie können nicht zuverlässig unterscheiden, ob ein niedriger Score auf einem logischen Fehler des Modells oder auf einer Fehlwahrnehmung durch das Verifikationsmodell selbst beruht. Dies führt zu:

Falsch-Positiven: Belohnung von Schritten, die auf halluzinierten visuellen Prämissen basieren.
Falsch-Negativen: Bestrafung von korrekten logischen Schritten, die auf einer visuellen Fehleinschätzung des Verifiers beruhen.
Diese Entmischung von Wahrnehmung und Reasoning untergräbt die Zuverlässigkeit von Reranking-Verfahren (wie Best-of- $N$ ) und die Fehlerlokalisierung.

2. Methodik: Explicit Visual Premise Verification (EVPV)

Die Autoren stellen EVPV vor, eine leichte Verifikations-Schnittstelle, die die Bewertung von Reasoning-Schritten explizit von der Zuverlässigkeit der zugrunde liegenden visuellen Fakten abhängig macht. Der Ansatz entkoppelt die visuelle Unsicherheit von der logischen Bewertung.

Der Workflow besteht aus folgenden Komponenten:

A. Schrittweise visuelle Checkliste (Policy)

Das Policy-Modell wird aufgefordert, für jeden Reasoning-Schritt $s_t$ eine kurze visuelle Prämisse ( $d_t$ ) zu deklarieren.

Wenn ein Schritt von visuellen Daten abhängt, gibt das Modell eine explizite Aussage (z. B. „Der Radius ist 2" oder „AB ist senkrecht zu CD").
Dies erzeugt eine visuelle Checkliste $V$ , die implizite Annahmen in überprüfbare Behauptungen umwandelt.

B. Strukturierte visuelle Evidenz (Constraint Extractor)

Parallel dazu extrahiert ein spezialisierter Constraint Extractor ( $E_\phi$ ) strukturierte visuelle Fakten aus dem Eingabebild.

Diese Fakten werden in einem einheitlichen JSON-Schema als Constraints ( $C$ ) dargestellt, das numerische Werte, geometrische Relationen und kompositorische Strukturen abdeckt.
Wichtig: Dies geschieht einmal pro Instanz, nicht pro Schritt, was den Overhead gering hält.

C. Konsistenz-zu-Zuverlässigkeit (Matching)

EVPV prüft die Konsistenz zwischen der Checkliste des Modells und den extrahierten Constraints.

Eine Matching-Funktion berechnet einen Support-Score $p_j$ für jede Behauptung.
Diese Scores werden zu einem skalaren visuellen Zuverlässigkeitssignal $r$ aggregiert (mittels geometrischem Mittel). Ein einzelner schwerwiegender Widerspruch (z. B. ein falsch gelesener Wert) zieht $r$ drastisch nach unten.

D. Zuverlässigkeits-gesteuerte Belohnung (Reliability Gating)

Ein Standard-Schritt-Verifier berechnet einen Basis-Score ( $R_{base}$ ). EVPV kalibriert diesen Score basierend auf $r$ :

Für visuelle Schritte: Der finale Reward $R_t$ wird mit einem Gating-Faktor $\alpha(r)$ multipliziert. Ist die visuelle Prämisse unzuverlässig ( $r$ niedrig), wird der Reward in Richtung Neutralität gedämpft ( $\alpha \approx 0$ ). Ist die Prämisse zuverlässig, bleibt der Reward erhalten.
Für nicht-visuelle Schritte: Der Reward bleibt unverändert.
Ziel: Verhindern, dass frühe Wahrnehmungsfehler zu übermäßig konfidenten (positiven oder negativen) Signalen führen, die das Reranking destabilisieren.

3. Schlüsselbeiträge

Entkopplung von Wahrnehmung und Reasoning: EVPV führt eine explizite Verifikation der visuellen Prämissen ein, bevor logische Schritte bewertet werden. Dies löst das Problem der „Blackbox"-Verifikation.
Leichtgewichtige Architektur: Im Gegensatz zu tool-basierten Ansätzen (die pro Schritt externe Tools anrufen) extrahiert EVPV die visuellen Fakten nur einmal pro Problem und nutzt diese für alle Schritte. Dies macht es skalierbar für Best-of- $N$ -Reranking.
Kausale Evidenz: Durch kontrollierte Korruption der extrahierten Constraints zeigen die Autoren, dass die Leistungssteigerung direkt von der Qualität der visuellen Evidenz abhängt und nicht nur ein zufälliger Prompt-Effekt ist.

4. Ergebnisse

Die Methode wurde auf VisualProcessBench und sechs multimodalen Reasoning-Benchmarks (u. a. MathVista, MMMU, MathVerse) evaluiert.

Schrittweise Verifikation: EVPV erreicht auf VisualProcessBench die höchste Macro-F1 (67,46 %) im Vergleich zu starken Baselines wie VisualPRM (62,00 %) und TIM-PRM.
Best-of- $N$ Reranking: Unter Verwendung von InternVL2.5-Policies (8B, 26B, 38B) führt EVPV zu konsistenten Verbesserungen bei der Endgenauigkeit (BoN@8).
- Beispiel: Beim 8B-Modell steigt die Genauigkeit um +8,83 Punkte gegenüber dem Pass@1, was signifikant besser ist als bei VisualPRM (+8,40).
- Die Verbesserungen sind besonders stark bei visuell intensiven Benchmarks, wo Wahrnehmungsfehler dominieren.
Robustheit: Die Leistung verschlechtert sich monoton, wenn die extrahierten Constraints absichtlich korruptiert werden, was die kausale Rolle der visuellen Verifikation bestätigt.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Schwachstelle in multimodalen Reasoning-Systemen: die Unfähigkeit bestehender Verifier, zwischen logischen Fehlern und visuellen Halluzinationen zu unterscheiden.

Praktische Relevanz: EVPV ermöglicht zuverlässigeres Test-Time-Scaling (z. B. Best-of-8), da es sicherstellt, dass nur solche Pfade bevorzugt werden, die auf korrekten visuellen Fakten basieren.
Effizienz: Es bietet eine Alternative zu teuren, schrittweisen Tool-Aufrufen, indem es eine einmalige, strukturierte Extraktion mit einer intelligenten Kalibrierung der Rewards kombiniert.
Zukunft: Die Arbeit legt den Grundstein für „premise-aware" Reward Models, die in der Lage sind, die Zuverlässigkeit der Eingabedaten in die Bewertung von Reasoning-Prozessen zu integrieren, was für den Einsatz in realen Anwendungen entscheidend ist.

Zusammenfassend zeigt EVPV, dass die explizite Validierung visueller Prämissen eine notwendige Voraussetzung für robuste multimodale Reasoning-Systeme ist und signifikante Fortschritte in der Zuverlässigkeit von LLMs bei visuellen Aufgaben ermöglicht.