MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Der Fall: Warum KI-Bilder oft „halluzinieren"

Stell dir vor, du hast einen sehr klugen Assistenten, der Bilder und Texte versteht. Wenn du ihm zwei Bilder zeigst und fragst: „Welches davon sieht besser aus?", antwortet er oft nicht wirklich auf das Bild. Stattdessen schaut er sich nur den Text an, den du geschrieben hast, oder er errät einfach, was du hören willst.

Das ist wie bei einem Kunst-Kritiker, der die Bilder gar nicht richtig anschaut. Er liest nur die Beschreibung des Künstlers und sagt dann: „Das hier ist toll!", obwohl das Bild eigentlich unscharf ist. In der KI-Welt nennen wir das „mangelnde Verankerung" (Grounding). Die KI vergisst die visuellen Beweise, sobald sie anfängt, einen langen Text zu schreiben.

🚀 Die Lösung: MJ1 – Der „Detektiv-Assistent"

Die Forscher von Haize Labs haben einen neuen Assistenten namens MJ1 entwickelt. Dieser Assistent ist nicht unbedingt riesig (er ist sogar kleiner als viele andere Top-KIs), aber er ist extrem clever, weil er eine spezielle Checkliste befolgt.

Stell dir MJ1 nicht als einen schnellen, impulsiven Richter vor, sondern als einen ermüdenden Detektiv, der Beweise sammelt, bevor er ein Urteil fällt.

1. Die „Fünf-Schritte-Checkliste" (Die Grounded Verification Chain)

Normalerweise springt eine KI sofort zum Ergebnis: „Bild A ist besser!" MJ1 macht das nicht. Er zwingt sich, fünf Schritte zu gehen, bevor er urteilt:

Beobachten (O): Zuerst schaut er sich die Bilder genau an und beschreibt, was er wirklich sieht (z. B. „Hier ist ein roter Ball"). Er tut das, bevor er den Text liest, damit er die Bilder nicht vergisst.
- Metapher: Wie ein Fotograf, der erst das Motiv scharf stellt, bevor er über die Beleuchtung nachdenkt.
Behauptungen sammeln (C): Er liest die Antworten der KI und notiert, was diese behaupten (z. B. „Die KI sagt, der Ball sei blau").
Überprüfen (V): Jetzt kommt der Clou: Er vergleicht die Behauptungen mit seinen eigenen Beobachtungen. „Warte, ich habe einen roten Ball gesehen, aber die KI sagt blau? Das passt nicht!"
Bewerten (E): Er prüft, ob die Antwort den Regeln entspricht.
Punkte vergeben (S): Erst am Ende gibt er eine Punktzahl.

Warum ist das genial?
Wenn die KI den Text schreibt, neigt sie dazu, die Bilder zu „vergessen" (wie ein Mensch, der nach langem Reden den Anfang vergisst). MJ1 zwingt sich, die Bilder am Anfang zu fixieren. Es ist wie beim Lernen für eine Prüfung: Wenn du dir die Formel zuerst aufschreibst, vergisst du sie nicht, wenn du die Aufgabe löst.

2. Der „Platz-Tausch-Trick" (Counterfactual Consistency)

Ein großes Problem bei KI-Richtern ist die Positionsbias. Das bedeutet: Die KI mag einfach die erste Antwort (A) lieber als die zweite (B), nur weil sie zuerst kommt.

MJ1 nutzt einen cleveren Trick, um das zu verhindern:

Der Trainer nimmt das gleiche Bildpaar, tauscht aber die Antworten A und B.
Wenn MJ1 vorher „A ist besser" sagte, muss er jetzt „B ist besser" sagen (weil die Inhalte getauscht wurden).
Wenn er stattdessen immer noch „A ist besser" sagt (weil er einfach die erste Position mag), bekommt er eine Strafe.
Metapher: Stell dir vor, du schmeckst zwei Gläser Wein. Wenn du sagst, das linke Glas schmeckt besser, und dann tauschen wir die Gläser, aber du sagst immer noch „Das linke Glas schmeckt besser", dann hast du nicht geschmeckt, sondern nur die Position gewählt. MJ1 wird bestraft, wenn er so tut. Er muss wirklich den Inhalt schmecken.

🏆 Das Ergebnis: Klein, aber oho!

Das Paper zeigt, dass MJ1 mit nur 3 Milliarden Parametern (eine winzige Größe für eine moderne KI) besser ist als riesige Monster-KIs wie Gemini-3-Pro oder GPT-5, die hunderte Milliarden Parameter haben.

Ohne Training: Selbst wenn man MJ1 gar nicht trainiert, sondern ihm nur die Checkliste gibt, wird er schon besser. Das zeigt, dass die Methode (die Checkliste) wichtiger ist als die reine Größe des Gehirns.
Mit Training: Nach dem Training (mit dem „Platz-Tausch-Trick") ist MJ1 der beste Richter auf dem Markt für Bildbewertungen.

💡 Die große Lehre

Die Botschaft des Papers ist einfach: Qualität kommt nicht von Größe, sondern von guter Disziplin.

Statt eine KI immer größer und dicker zu machen, um sie besser zu machen, haben die Forscher ihr beigebracht, genau hinzuschauen und logisch zu denken, bevor sie urteilt. Sie haben die KI gezwungen, ihre Beweise zu notieren, anstatt zu raten.

Zusammengefasst in einem Satz:
MJ1 ist wie ein kleiner, aber extrem disziplinierter Richter, der sich zuerst die Beweise (die Bilder) genau anschaut, sie mit den Aussagen vergleicht und erst dann urteilt – und dabei viel besser ist als riesige, aber ungeduldige Riesen, die nur raten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Multimodal Judgment via Grounded Verification (MJ1)

Autoren: Bhavesh Kumar, Dylan Feng, Leonard Tang (Haize Labs)

1. Problemstellung

Multimodale Bewertungsmodelle (Judges), die entscheiden sollen, welche von zwei generierten Antworten (Text + Bild) besser ist, leiden unter einem fundamentalen Defizit: Sie können ihre Entscheidungen oft nicht ausreichend auf visuelle Beweise stützen.

Aktueller Stand: Selbst fortschrittliche Modelle wie Gemini-3-Pro oder GPT-5 erreichen auf dem umfassenden Benchmark MMRB2 (Multimodal RewardBench 2) nur eine Genauigkeit von 70–76 %. Open-Source-Modelle stagnieren bei ca. 64 %.
Ursache: Das Problem liegt nicht primär in der Modellgröße, sondern in einem mechanischen Versagen der Vision-Language-Modelle (VLMs).
- Visuelle Aufmerksamkeit: In tieferen Transformer-Schichten erhalten visuelle Token vernachlässigbare Aufmerksamkeitsgewichte. Visuelle Informationen hören oft lange vor dem Ende der Generierung auf, effektiv propagiert zu werden.
- Text-Dominanz: Modelle neigen dazu, sprachliche Priors zu überbetonen und visuelle Beweise zu ignorieren, was zu Halluzinationen oder falschen Bewertungen führt, wenn die Aufgabe eine sorgfältige visuell-textliche Abgleichung erfordert.

2. Methodik: MJ1

Die Autoren stellen MJ1 vor, ein multimodales Bewertungsmodell, das durch Reinforcement Learning (RL) trainiert wurde. Der Kernansatz besteht darin, die visuelle Verankerung (Grounding) durch eine strukturierte Architektur und einen speziellen Belohnungsmechanismus zu erzwingen.

A. Grounded Verification Chain (Verankerte Verifikationskette)

Anstatt eine direkte Bewertung am Ende einer langen Textgenerierung abzugeben (wo die visuelle Aufmerksamkeit bereits abgeklungen ist), zerlegt MJ1 den Bewertungsprozess in eine strukturierte Abfolge von fünf Schritten:

Observations (O): Das Modell extrahiert visuelle Beobachtungen aus den Eingabebildern, bevor es den Text analysiert. Dies nutzt den Zeitpunkt maximaler visueller Aufmerksamkeit.
Claims (C): Die Antworten (RA, RB) werden in einzelne Behauptungen zerlegt.
Verification (V): Jede Behauptung wird gegen die zuvor extrahierten visuellen Beobachtungen verifiziert. Dies erzeugt ein binäres Signal (konsistent/inkonsistent).
Evaluation (E): Die Antworten werden gegen aufgabenspezifische Kriterien bewertet.
Scoring (s): Basierend auf den vorherigen Schritten werden finale Punktzahlen (1–10) vergeben.

Dieser Ansatz erzwingt eine explizite Rückverknüpfung der Logik mit den visuellen Eingaben und verhindert, dass das Modell „Abkürzungen" über rein textbasierte Merkmale (wie Länge oder Fluss) nimmt.

B. Counterfactual Consistency Reward (Kontrefaktische Konsistenz-Belohnung)

Um Positionsbias (die Tendenz, die erste Antwort A bevorzugt zu bewerten) zu eliminieren, wird ein spezieller RL-Belohnungsterm eingeführt:

Mechanismus: Während des Trainings (GRPO) werden die Eingabebilder und die Zuordnung der Antworten (A ↔ B) vertauscht.
Ziel: Das Modell muss in der Lage sein, die Präferenz korrekt umzukehren, wenn sich die Inhalte tauschen, aber die Positionen bleiben gleich.
Belohnung: Ein hoher Konsistenz-Reward ( $R_{cons}$ ) wird nur dann vergeben, wenn das Urteil inhaltlich korrekt bleibt und nicht von der Reihenfolge der Eingabe abhängt. Dies zwingt das Modell, sich auf den visuellen Inhalt zu stützen, nicht auf die Position.

C. Trainings-Pipeline

Cold-Start SFT: Feinabstimmung auf 10.000 destillierten Reasoning-Spuren, um das Format und die Grundfähigkeiten zu etablieren.
GRPO (Group Relative Policy Optimization): Training mit einer zusammengesetzten Belohnungsfunktion:
- $R_{format}$ : Einhaltung der XML-Struktur.
- $R_{correct}$ : Übereinstimmung mit dem Ground-Truth-Label.
- $R_{cons}$ : Konsistenz bei vertauschten Eingaben.

Basis-Modell: Qwen3-VL-30B-A3B (ein Mixture-of-Experts-Modell mit 30 Mrd. Gesamtparametern, aber nur 3 Mrd. aktiven Parametern pro Token).

3. Schlüsselbeiträge

Strukturierte Grounding-Kette: Die Aufteilung des Reasoning-Prozesses in Beobachtung, Behauptung und Verifikation verbessert die Genauigkeit bereits ohne Training um +3,8 Punkte (Image Editing) und +1,7 Punkte (Multimodal Reasoning) im Vergleich zu offenen Prompts.
Konsistenz-basiertes Training: Die Einführung der kontrefaktischen Konsistenz-Belohnung eliminiert Positionsbias effektiv und fördert eine echte visuelle Reasoning-Ausrichtung.
Effizienz: MJ1 erreicht State-of-the-Art-Ergebnisse mit nur 3 Mrd. aktiven Parametern, was zeigt, dass die Trainingsmethode wichtiger ist als reine Skalierung.

4. Ergebnisse

Die Evaluation erfolgte auf dem MMRB2-Benchmark, der vier Teilaufgaben umfasst (Text-to-Image, Image Editing, Interleaved Generation, Multimodal Reasoning).

Gesamtgenauigkeit: MJ1 erreicht 77,0 %.
Vergleich:
- MJ1 übertrifft Gemini-3-Pro (76,3 %) und GPT-5 (72,2 %).
- MJ1 übertrifft auch deutlich größere Modelle (z. B. Qwen3-VL-235B mit 22 Mrd. aktiven Parametern: 62,9 %).
Konsistenz: Die Verbesserungen sind über alle vier Teilaufgaben hinweg konsistent, was die Generalisierungsfähigkeit des Ansatzes unterstreicht.
Ablation: Experimente ohne Training zeigten, dass die strukturierte Prompting-Strategie allein bereits signifikante Verbesserungen bringt. Zudem korrelierte die Konsistenz-Belohnung stark mit der Genauigkeit, selbst wenn die Eingabebilder vertauscht oder durch leere Bilder ersetzt wurden (was zu einem drastischen Leistungsabfall führte, wenn keine visuelle Verankerung stattfand).

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Hauptbarriere für multimodale Bewertungsmodelle nicht die Modellgröße, sondern die Art und Weise ist, wie diese Modelle visuelle Beweise verarbeiten und in ihre Entscheidungsfindung integrieren.

Paradigmenwechsel: Statt einfach nur mehr Parameter zu verwenden, zeigt MJ1, dass eine strukturierte Reasoning-Kette (die visuelle Beobachtung priorisiert) und konsistenzbasierte RL-Verstärkung entscheidend sind, um visuelle Halluzinationen zu reduzieren und die Zuverlässigkeit zu erhöhen.
Praktische Relevanz: Da MJ1 mit einem kleinen, effizienten Modell (3B aktive Parameter) die Leistung von riesigen API-Modellen übertrifft, bietet es einen skalierbaren und kosteneffizienten Weg für das Training von Reward-Modellen in der RLHF-Pipeline (Reinforcement Learning from Human Feedback) für Vision-Language-Modelle.

Zusammenfassend beweist MJ1, dass „Grounded Verification" und Konsistenz-Training den Engpass bei der multimodalen Bewertung lösen können, ohne die Modellskalierung weiter zu erhöhen.