Visual-ERM: Reward Modeling for Visual Equivalence

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meester-architect bent die een prachtige, complexe tekening maakt (een grafiek, een tabel of een vectorafbeelding). Je wilt dat een slimme computer deze tekening precies natekenen, maar dan in de taal van de computer (code).

Het probleem is dat de computer vaak "natekenen" doet, maar het resultaat ziet er misschien net iets anders uit dan het origineel. Misschien is de kleur van een balkje net iets te donker, staat een getal op de verkeerde plek, of ontbreekt er een lijn.

Vroeger hadden we twee manieren om de computer te controleren:

De tekst-checker: Deze keek alleen naar de code die de computer schreef. Als de code leek op de juiste code, gaf hij een goed cijfer. Maar dit is als het controleren van een recept op basis van de woorden alleen, zonder te proeven of het eten eruitziet zoals het moet. De computer kon de code veranderen om de tekst-checker te misleiden, terwijl het plaatje er nog steeds slecht uitzag.
De ruwe vergelijker: Deze keek naar het plaatje en zei: "Het lijkt wel op het origineel!" Maar deze kijkt vaak alleen naar de grote lijnen (zoals "het is een staafdiagram") en mist de kleine foutjes, zoals een verkeerd getal of een scheef geplaatste titel.

Visual-ERM is de oplossing die de auteurs van dit paper hebben bedacht. Het is als het inhuren van een meester-illustrator die niet alleen kijkt, maar ook begrijpt wat er mis is.

Hier is hoe het werkt, in simpele termen:

1. De Meester-Inspecteur (Visual-ERM)

In plaats van alleen te kijken of de code klopt, kijkt Visual-ERM naar het uiteindelijke plaatje dat de computer heeft gemaakt en vergelijkt dit met het origineel.

Hij ziet alles: Hij merkt op dat een balkje 2% te kort is, dat een letter 'O' als een '0' is geschreven, of dat de kleuren niet overeenkomen.
Hij geeft een gedetailleerd rapport: In plaats van alleen een cijfer te geven, zegt hij: "Hé, de titel van de X-as staat op de verkeerde plek (foutje 2), en de rode lijn is te dik (foutje 1)."
Hij is slim: Hij leert van duizenden voorbeelden van fouten, zodat hij weet wat belangrijk is en wat niet.

2. De Leermeester (Versterkend Leren)

Nu gebruiken we deze meester-illustrator als leraar voor de computer.

De computer probeert een tekening te maken.
Visual-ERM kijkt ernaar en zegt: "Dit is goed, maar hier en daar zit een fout."
De computer luistert, past zijn code aan en probeert het opnieuw.
Omdat Visual-ERM zo'n gedetailleerde feedback geeft, leert de computer veel sneller en beter dan met de oude methodes. Het is alsof je een sporter traint met een coach die precies zegt welke spier je moet aanspannen, in plaats van alleen te zeggen "goed gedaan" of "slecht gedaan".

3. De "Test-Tijd" Hulp (Zelfcorrectie)

Zelfs als de computer klaar is met zijn werk, kan Visual-ERM nog helpen.

Stel de computer maakt een tekening.
Visual-ERM kijkt er naar en zegt: "Kijk, die lijn staat scheef."
De computer denkt na (reflecteert) en maakt de tekening direct beter, zonder dat een mens hoeft tussen te komen. Dit noemen ze "test-time scaling" (schalen tijdens het testen).

Waarom is dit zo belangrijk?

De oude methodes waren als het controleren van een schilderij door alleen naar de lijst te kijken of door te zeggen "het lijkt wel op een boom". Visual-ERM kijkt naar de verf, de penseelstreken en de details.

Dankzij deze nieuwe methode kunnen computers nu veel nauwkeuriger grafieken, tabellen en tekeningen maken. Of het nu gaat om het omzetten van een handgeschreven tabel in een digitaal bestand, of het maken van een wetenschappelijke grafiek op basis van een foto: Visual-ERM zorgt ervoor dat het eindresultaat eruitziet precies zoals het zou moeten zijn, zonder dat de computer probeert de regels te omzeilen.

Kortom: Visual-ERM is de slimme, kritische kunstcriticus die zorgt dat de computer niet alleen "code schrijft", maar echt mooie en juiste plaatjes maakt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De taak "Vision-to-Code" (het omzetten van gestructureerde visuele invoer zoals grafieken, tabellen en SVG's naar uitvoerbare code of gestructureerde tekst zoals Markdown) is cruciaal voor toepassingen zoals AI-ondersteunde front-end ontwikkeling en wetenschappelijk documentparsing. Hoewel recente Large Vision Language Models (LVLMs) sterke resultaten behalen via Supervised Fine-Tuning (SFT), stuiten ze op beperkingen bij het gebruik van Reinforcement Learning (RL).

Het kernprobleem ligt in de beloningssignalen (rewards) die nodig zijn voor RL:

Tekstgebaseerde metrics (zoals Edit Distance of TEDS) opereren puur in de tekstuele ruimte. Ze missen kritieke visuele cues zoals uitlijning, spaties en lay-outfouten, wat leidt tot "reward hacking" (modellen optimaliseren voor de score zonder de visuele kwaliteit te verbeteren).
Visuele embedding-similariteit (bijv. DINO) is te grofkorrelig en semantisch bevooroordeeld. Deze methoden zijn ongevoelig voor fijne visuele details die essentieel zijn voor parsing, en kunnen hoge scores geven aan outputs met substantiële fouten (bijv. een DINO-score van 0.99 ondanks grote lay-outfouten).

Er is een behoefte aan een beloningsmodel dat fijne details, visuele trouw en interpretabele feedback biedt in de gerenderde visuele ruimte, ongeacht de specifieke taak.

Methodologie: Visual-ERM

De auteurs stellen Visual-ERM (Visual Equivalence Reward Model) voor, een multimodaal generatief beloningsmodel dat visuele equivalentie evalueert door de gegenereerde output terug te renderen naar een afbeelding en deze te vergelijken met de ground-truth afbeelding.

De pijlers van de methode:

Visuele Ruimte Evaluatie: In plaats van tekst te vergelijken, wordt de gegenereerde code/markdown gerenderd tot een afbeelding ( $\hat{I}$ ). Visual-ERM neemt de ground-truth afbeelding ( $I^*$ ) en de gerenderde afbeelding ( $\hat{I}$ ) als input.
Fijne Korreligheid & Interpretatie: Het model geeft geen enkelvoudige scalar, maar genereert gestructureerde feedback met:
- Categorieën: Fouten worden ingedeeld in structure_error, data_error, text_error, en style_error (afhankelijk van de taak).
- Locatie: Specifieke aanduiding waar de fout zit (bijv. "Y-as label").
- Zwaarte (Severity): Een score van 1 (minor) tot 3 (kritiek).
- Beschrijving: Een natuurlijke taalverklaring van de discrepantie.
Trainingspipeline:
- Data Generatie: Er worden "corrupte" outputs gegenereerd via gecontroleerde bewerkingen van ground-truth data en inferentie van zwakkere modellen.
- Distillatie: Propriëtaire modellen (zoals GPT-5-mini) worden gebruikt om fijne, gestructureerde annotaties te genereren voor deze afbeeldingsparen.
- Supervised Fine-Tuning (SFT): Visual-ERM (gebaseerd op Qwen3-VL-8B) wordt getraind op deze dataset om de fouten te voorspellen en te beschrijven.
Integratie in RL en Test-Time Scaling:
- RL: Visual-ERM fungeert als beloningsmodel in een GRPO-gebaseerde RL-pijplijn. De beloning wordt berekend op basis van de som van de voorspelde zwaarte van fouten.
- Test-Time Scaling (TTS): Tijdens inferentie kan het model iteratief zijn output herzien op basis van de gedetailleerde feedback van Visual-ERM (reflectie en revisie).

Nieuwe Benchmark: VC-RewardBench

Om de kwaliteit van beloningsmodellen direct te meten, introduceren de auteurs VisualCritic-RewardBench (VC-RewardBench).

Dit is een benchmark van 1.335 hoogwaardige voorbeelden voor het beoordelen van fijne afbeelding-tot-afbeelding discrepanties in grafieken, tabellen en SVG's.
Het evalueert modellen op hun vermogen om fouten te detecteren, te lokaliseren en te categoriseren, met gebruikmaking van een "LLM-as-Judge" protocol voor de evaluatie van vrije tekstbeschrijvingen.

Resultaten

De experimenten tonen aan dat Visual-ERM superieur is aan bestaande methoden:

Verbetering in Reinforcement Learning:
- Chart-to-Code: Visual-ERM verbetert Qwen3-VL-8B-Instruct met +8.4 punten op de ChartMimic-benchmark, wat significant meer is dan RL met DINO-based rewards.
- Table-to-Markdown: Consistente winst van +2.7 punten in het gemiddelde, terwijl DINO-based RL zelfs prestatie-achteruitgang veroorzaakte door modality bias.
- SVG-to-Code: Winst van +4.1 punten in het gemiddelde, met name robuust voor sterkere policy-modellen waar DINO faalde.
Prestaties op VC-RewardBench:
- Visual-ERM (8B parameters) presteert aanzienlijk beter dan de basis Qwen3-VL-8B en overtreft zelfs de enorme Qwen3-VL-235B-Instruct (235B parameters) in het detecteren van fijne visuele en tekstuele fouten.
- Het bereikt prestaties die vergelijkbaar zijn met toonaangevende gesloten bronmodellen (zoals GPT-5 en Gemini-3), wat aantoont dat gespecialiseerde training effectiever is dan puur schalen van een algemeen LVLM.
Test-Time Scaling:
- Door Visual-ERM te gebruiken voor iteratieve reflectie tijdens de inferentie, worden de parsing-nauwkeurigheden verder verbeterd (bijv. +8.0 punten voor de basis Qwen3-VL-8B op Chart-to-Code).

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Visual-ERM: Een nieuw generatief beloningsmodel dat visuele equivalentie evalueert in de gerenderde ruimte, waardoor het "reward hacking" voorkomt en interpretabele, taak-agnostische feedback biedt.
VC-RewardBench: De eerste benchmark die specifiek is ontworpen voor het beoordelen van fijne visuele discrepanties in gestructureerde visuele data.
Empirisch Bewijs: Het bewijst dat fijne visuele beloningscontrole zowel noodzakelijk als voldoende is voor succesvol RL in vision-to-code taken, ongeacht de specifieke taak (grafieken, tabellen of vectorgrafieken).

Conclusie:
Dit paper markeert een verschuiving van tekst-gebaseerde of grofkorrelige visuele beloningen naar een multimodaal, interpretabel en fijnkorrelig beloningssysteem. Het toont aan dat het direct evalueren van de visuele output (via rendering) essentieel is om modellen te trainen die echt "zien" wat ze genereren, wat leidt tot robuustere en nauwkeurigere vision-to-code systemen.

Visual-ERM: Reward Modeling for Visual Equivalence

1. De Meester-Inspecteur (Visual-ERM)

2. De Leermeester (Versterkend Leren)

3. De "Test-Tijd" Hulp (Zelfcorrectie)

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie: Visual-ERM

Nieuwe Benchmark: VC-RewardBench

Resultaten

Bijdragen en Significantie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks