Visual-ERM: Reward Modeling for Visual Equivalence

Dit artikel introduceert Visual-ERM, een multimodaal generatief beloningsmodel dat fijnkorrelige visuele feedback biedt voor het trainen van vision-to-code modellen via versterkingsleer, wat leidt tot significante prestatieverbeteringen bij het reconstrueren van gestructureerde visuele data zoals grafieken en tabellen.

Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meester-architect bent die een prachtige, complexe tekening maakt (een grafiek, een tabel of een vectorafbeelding). Je wilt dat een slimme computer deze tekening precies natekenen, maar dan in de taal van de computer (code).

Het probleem is dat de computer vaak "natekenen" doet, maar het resultaat ziet er misschien net iets anders uit dan het origineel. Misschien is de kleur van een balkje net iets te donker, staat een getal op de verkeerde plek, of ontbreekt er een lijn.

Vroeger hadden we twee manieren om de computer te controleren:

  1. De tekst-checker: Deze keek alleen naar de code die de computer schreef. Als de code leek op de juiste code, gaf hij een goed cijfer. Maar dit is als het controleren van een recept op basis van de woorden alleen, zonder te proeven of het eten eruitziet zoals het moet. De computer kon de code veranderen om de tekst-checker te misleiden, terwijl het plaatje er nog steeds slecht uitzag.
  2. De ruwe vergelijker: Deze keek naar het plaatje en zei: "Het lijkt wel op het origineel!" Maar deze kijkt vaak alleen naar de grote lijnen (zoals "het is een staafdiagram") en mist de kleine foutjes, zoals een verkeerd getal of een scheef geplaatste titel.

Visual-ERM is de oplossing die de auteurs van dit paper hebben bedacht. Het is als het inhuren van een meester-illustrator die niet alleen kijkt, maar ook begrijpt wat er mis is.

Hier is hoe het werkt, in simpele termen:

1. De Meester-Inspecteur (Visual-ERM)

In plaats van alleen te kijken of de code klopt, kijkt Visual-ERM naar het uiteindelijke plaatje dat de computer heeft gemaakt en vergelijkt dit met het origineel.

  • Hij ziet alles: Hij merkt op dat een balkje 2% te kort is, dat een letter 'O' als een '0' is geschreven, of dat de kleuren niet overeenkomen.
  • Hij geeft een gedetailleerd rapport: In plaats van alleen een cijfer te geven, zegt hij: "Hé, de titel van de X-as staat op de verkeerde plek (foutje 2), en de rode lijn is te dik (foutje 1)."
  • Hij is slim: Hij leert van duizenden voorbeelden van fouten, zodat hij weet wat belangrijk is en wat niet.

2. De Leermeester (Versterkend Leren)

Nu gebruiken we deze meester-illustrator als leraar voor de computer.

  • De computer probeert een tekening te maken.
  • Visual-ERM kijkt ernaar en zegt: "Dit is goed, maar hier en daar zit een fout."
  • De computer luistert, past zijn code aan en probeert het opnieuw.
  • Omdat Visual-ERM zo'n gedetailleerde feedback geeft, leert de computer veel sneller en beter dan met de oude methodes. Het is alsof je een sporter traint met een coach die precies zegt welke spier je moet aanspannen, in plaats van alleen te zeggen "goed gedaan" of "slecht gedaan".

3. De "Test-Tijd" Hulp (Zelfcorrectie)

Zelfs als de computer klaar is met zijn werk, kan Visual-ERM nog helpen.

  • Stel de computer maakt een tekening.
  • Visual-ERM kijkt er naar en zegt: "Kijk, die lijn staat scheef."
  • De computer denkt na (reflecteert) en maakt de tekening direct beter, zonder dat een mens hoeft tussen te komen. Dit noemen ze "test-time scaling" (schalen tijdens het testen).

Waarom is dit zo belangrijk?

De oude methodes waren als het controleren van een schilderij door alleen naar de lijst te kijken of door te zeggen "het lijkt wel op een boom". Visual-ERM kijkt naar de verf, de penseelstreken en de details.

Dankzij deze nieuwe methode kunnen computers nu veel nauwkeuriger grafieken, tabellen en tekeningen maken. Of het nu gaat om het omzetten van een handgeschreven tabel in een digitaal bestand, of het maken van een wetenschappelijke grafiek op basis van een foto: Visual-ERM zorgt ervoor dat het eindresultaat eruitziet precies zoals het zou moeten zijn, zonder dat de computer probeert de regels te omzeilen.

Kortom: Visual-ERM is de slimme, kritische kunstcriticus die zorgt dat de computer niet alleen "code schrijft", maar echt mooie en juiste plaatjes maakt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →