MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstcriticus bent die twee verschillende versies van een foto moet beoordelen. De ene foto is misschien een beetje te fel, de andere mist een detail. Je taak is om te zeggen welke foto het beste voldoet aan de opdracht van de klant.

Het probleem is dat de "kunstcritici" die we vandaag de dag hebben (de AI-modellen), vaak blind zijn voor de foto's zelf. Ze kijken naar de tekst, lezen de beschrijvingen en zeggen dan: "Deze tekst klinkt netter, dus deze foto is beter." Ze vergeten eigenlijk om naar het plaatje te kijken! Ze worden zo druk met het schrijven van hun oordeel, dat ze de beelden vergeten die ze net zagen.

De auteurs van dit paper hebben een oplossing bedacht: MJ1. Ze hebben een slimme, kleine AI gemaakt die wél echt naar de foto's kijkt voordat hij een oordeel velt.

Hier is hoe het werkt, vertaald in een simpel verhaal:

1. Het probleem: De "Aandacht-Verdwijning"

Stel je voor dat je een heel lang verhaal moet vertellen over een foto. Als je begint, kijk je nog goed naar de foto. Maar naarmate je langer praat, wordt je aandacht voor de foto steeds zwakker. Uiteindelijk, op het moment dat je je oordeel schrijft, heb je de foto al helemaal vergeten en baseer je je oordeel puur op wat je eerder hebt gezegd of op hoe netjes je zinnen klinken.

AI-modellen hebben dit exacte probleem. Ze kijken naar de foto, maar tegen de tijd dat ze hun score geven, is die informatie al verdwenen uit hun "geheugen".

2. De oplossing: De "Gestructureerde Controlelijst"

In plaats van zomaar te zeggen "Foto A is beter", dwingt MJ1 de AI om een stap-voor-stap controlelijst te volgen. Het is alsof je een detective bent die niet mag oordelen voordat hij het bewijs heeft verzameld.

De AI moet nu dit doen:

Observatie (Het kijken): Eerst beschrijft de AI precies wat hij ziet op de foto's. "Hier zie ik een rode auto, daar een blauwe lucht." Dit doet hij direct, terwijl zijn aandacht nog scherp is.
Claims (De beweringen): Vervolgens kijkt hij naar de antwoorden van de twee kandidaten. "Kandidaat A zegt dat de auto rood is. Kandidaat B zegt dat de auto blauw is."
Verificatie (De check): Nu vergelijkt hij de beweringen met zijn eigen observaties. "Wacht, ik zag een rode auto. Kandidaat B had het dus fout."
Oordeel: Pas nu, na al die stappen, geeft hij een score.

Het resultaat: Zelfs zonder dat de AI getraind is, werkt deze methode al beter. Het is alsof je iemand dwingt om eerst te kijken voordat hij spreekt.

3. De slimme truc: De "Spiegel-Test"

Om zeker te weten dat de AI echt naar de foto's kijkt en niet zomaar een voorkeur heeft (bijvoorbeeld: "Ik vind altijd antwoord A leuker, ongeacht wat er staat"), gebruiken de makers een slimme truc: de spiegel-test.

Stel je voor dat je de AI twee foto's geeft: Foto A en Foto B. De AI zegt: "Foto A is beter."
Nu doen we alsof we de foto's verwisselen. We geven de AI dezelfde foto's, maar noemen de ene "B" en de andere "A".

Als de AI slim is, zal hij nu zeggen: "Nou, deze (de nieuwe A, die eigenlijk de oude B is) is beter." Hij past zijn oordeel aan aan de inhoud van de foto.
Als de AI dom is (of vooroordeelsvol), zal hij blijven zeggen: "Ik vind A altijd leuker," zelfs als de inhoud van A nu helemaal anders is.

De AI krijgt een straf als hij deze spiegel-test niet doorstaat. Hij leert dus dat hij echt moet kijken naar de inhoud, niet naar de volgorde.

4. Het resultaat: Klein maar krachtig

Het mooiste aan dit verhaal is dat MJ1 een kleine AI is (met slechts 3 miljard "actieve" hersencellen). Terwijl de enorme, dure modellen van Google en OpenAI (die honderden keren groter zijn) vaak falen omdat ze de foto's vergeten, wint MJ1 het spel.

Waarom? Omdat ze niet groter zijn, maar slimmer in hun aanpak. Ze dwingen de AI om eerst te kijken, dan te denken, en pas daarna te oordelen.

Samenvattend

Deze paper laat zien dat je niet per se een gigantische, dure supercomputer nodig hebt om goede oordelen te vellen over afbeeldingen. Als je de AI gewoon dwingt om een strakke controlelijst te volgen en hem straf geeft als hij vooroordelen heeft, wordt hij veel beter in het zien van de werkelijkheid. Het is een bewijs dat de manier waarop je een AI leert, belangrijker is dan hoe groot hij is.

Each language version is independently generated for its own context, not a direct translation.

Titel: Multimodaal Beoordelen via Gegrond Verificatie (Multimodal Judgment via Grounded Verification)

Auteurs: Bhavesh Kumar, Dylan Feng, Leonard Tang (Haize Labs)
Model: MJ1 (gebaseerd op Qwen3-VL-30B-A3B)

1. Het Probleem

De kernuitdaging bij het evalueren van Vision-Language Models (VLM's) is dat bestaande multimodale "judges" (beoordelaars) moeite hebben om hun beslissingen te verankeren in visuele bewijzen.

Achterstand: Hoewel tekstuele beoordelaars goed presteren, blijven multimodale beoordelaars achter. Op de Multimodal RewardBench 2 (MMRB2) bereiken geavanceerde modellen (zoals Gemini-3-Pro en GPT-5) slechts 70–76% nauwkeurigheid, terwijl open-source modellen rond de 64% stagneren.
Oorzaak: Het probleem ligt niet in de schaal van het model, maar in een mechanisch falen bij het verwerken van visuele informatie. Onderzoek toont aan dat visuele tokens in diepere lagen van transformers steeds minder aandacht krijgen ("attention decay") en vaak worden genegeerd ten gunste van taalkundige priors. Modellen hallucineren vaak of vertrouwen op tekstuele kenmerken (zoals vloeiendheid) in plaats van de daadwerkelijke afbeeldingen.

2. Methodologie

De auteurs introduceren MJ1, een model dat is getraind met Reinforcement Learning (RL) om visuele gronding te forceren via twee kernmechanismen:

A. De Gegrond Verificatieketen (Grounded Verification Chain)

In plaats van een directe beoordeling te geven, doorloopt het model een gestructureerd proces van vijf fasen. Dit dwingt het model om visuele waarnemingen te maken voordat het een oordeel velt, waardoor de aandacht voor visuele tokens op het hoogtepunt wordt gehouden:

Observaties (O): Het model beschrijft de visuele inhoud van de prompt en de twee antwoorden (RA en RB).
Claim-extractie (C): Het model breekt de tekstuele antwoorden op in specifieke claims.
Verificatie (V): Elke claim wordt gecontroleerd tegen de eerder gegenereerde observaties. Dit levert een binair signaal op (1 = consistent, 0 = inconsistent).
Evaluatie (E): De antwoorden worden beoordeeld op basis van taakspecifieke criteria.
Score (s): Een definitieve score (1-10) wordt gegenereerd.

B. Contradictorische Consistentiebeloning (Counterfactual Consistency Reward)

Om positiebias te elimineren (de neiging om het eerste antwoord te prefereren), wordt een speciale beloningsfunctie gebruikt:

Tijdens de training worden de invoer (afbeeldingen en antwoorden) van de twee opties (A en B) omgewisseld.
Het model moet dan een oordeel vellen op basis van de inhoud, niet de positie.
Als het model na het wisselen van de invoer ook het oordeel correct omkeert, krijgt het een beloning ( $R_{cons}$ ). Dit straft modellen die blindelings op positie vertrouwen.

C. Trainingspipeline

Het trainingproces verloopt in twee fasen:

Cold-start SFT: Supervised Fine-Tuning op 10.000 gedistilleerde redeneertraces om de structuur en basisvaardigheden te leren.
GRPO (Group Relative Policy Optimization): Een RL-fase met een samengestelde beloningsfunctie:
- $R_{format}$ : Controleert op XML-structuur.
- $R_{correct}$ : Controleert of de voorkeur overeenkomt met de ground truth.
- $R_{cons}$ : Controleert op positie-invariantie (via het wisselmechanisme).

3. Belangrijkste Bijdragen

Gestructureerde Verificatie: Het bewijs dat het opsplitsen van het oordeel in een keten (Observatie → Claim → Verificatie) de nauwkeurigheid aanzienlijk verbetert, zelfs zonder training.
Positie-invariantie: De introductie van een consistentiebeloning die specifiek is ontworpen om multimodale judges te trainen om onafhankelijk van de volgorde van invoer te redeneren.
Efficiëntie: Het aantonen dat een model met slechts 3B actieve parameters (Qwen3-VL-30B-A3B) superieure prestaties kan leveren ten opzichte van modellen met ordes van grootte meer parameters, mits de juiste trainingsmethode wordt gebruikt.

4. Resultaten

Het model MJ1 werd geëvalueerd op de MMRB2-benchmark (4 subtaken: Text-to-Image, Image Editing, Interleaved Generation, Multimodal Reasoning).

Zonder training: Alleen het gebruik van de gestructureerde prompt (zonder fine-tuning) verbeterde de nauwkeurigheid van het basismodel met +3,8% bij Image Editing en +1,7% bij Multimodal Reasoning.
Na training: MJ1 bereikte een totale nauwkeurigheid van 77,0%.
Vergelijking: MJ1 presteert beter dan:
- Gemini-3-Pro (76,3%): Een model dat orders van grootte groter is.
- GPT-5 (72,2%).
- Alle andere open-source modellen (zoals Qwen3-VL-32B en Gemma 3 27B).
Subtaken: De verbeteringen waren consistent over alle vier de subtaken, wat aantoont dat de methode generaliseert over verschillende soorten visuele redeneertaken.

5. Betekenis en Conclusie

Dit paper toont aan dat de bottleneck voor multimodale beoordeling niet de grootte van het model is, maar de architectuur van het redeneerproces.

Visuele Gronding: Door visuele observaties vroeg in het proces te forceren en deze te koppelen aan claims, wordt het "attention decay"-probleem effectief opgelost.
Trainingsrecept: Een combinatie van gestructureerde prompting en consistentie-gebaseerde RL (GRPO) is cruciaal. Het bewijst dat een goed trainingsrecept belangrijker is dan schaalvergroting voor taken die visueel redeneren vereisen.
Toekomst: MJ1 biedt een nieuwe standaard voor het evalueren en verbeteren van Vision-Language Models, waarbij de focus ligt op mechanische gronding in plaats van brute rekenkracht.