Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Each language version is independently generated for its own context, not a direct translation.

🧠 Perception-R1: Wie man einer KI beibringt, wirklich hinzusehen, bevor sie redet

Stell dir vor, du hast einen sehr intelligenten Schüler, der alle Bücher der Welt auswendig gelernt hat. Er kann Matheaufgaben lösen, Physik erklären und komplexe Rätsel knacken. Aber es gibt ein kleines Problem: Er liest die Aufgaben nicht richtig.

Wenn du ihm ein Bild zeigst, auf dem ein Kreis mit einem Radius von 26 steht, und er fragt: „Wie lang ist die Sehne?", antwortet er vielleicht: „Das ist einfach 24!", weil er das Muster aus dem Gedächtnis kennt. Aber wenn du ihn fragst, warum er das so berechnet, erfindet er Dinge, die auf dem Bild gar nicht sind (z. B. behauptet er, es gäbe einen rechten Winkel, wo keiner ist). Er „halluziniert" Details, nur um die Antwort zu erraten.

Das ist genau das Problem, das die Forscher in diesem Paper lösen wollen.

1. Das Problem: Der „Rate-Künstler"

Bisherige KI-Modelle (MLLMs) wurden trainiert, indem man ihnen nur eine Belohnung gab, wenn die Endantwort richtig war.

Die Analogie: Stell dir vor, du trainierst einen Hund. Wenn er den Ball bringt, gibt es einen Leckerbissen. Es ist egal, ob er den Ball wirklich gesehen hat oder ob er ihn zufällig gefunden hat.
Das Ergebnis: Der Hund (die KI) lernt, Tricks zu machen, um den Leckerbissen zu bekommen, ohne wirklich zu verstehen, was vor sich geht. In der KI-Sprache heißt das: Die Modelle werden gut im Raten der Antwort, aber schlecht im Sehen des Bildes.

Die Forscher haben herausgefunden: Selbst wenn man diese KIs mit Reinforcement Learning (einer Art „Versuch und Irrtum"-Training) weitertrainiert, werden sie nicht besser im Sehen. Sie bleiben „blind", solange die Antwort stimmt.

2. Die Lösung: Perception-R1 (Der „Augenöffner")

Die Autoren haben eine neue Methode namens Perception-R1 entwickelt. Sie fügen eine neue Art von Belohnung hinzu.

Die neue Regel: Bevor die KI die Antwort gibt, muss sie erst einmal genau beschreiben, was sie auf dem Bild sieht.
Die Analogie: Stell dir vor, du trainierst den Hund nicht nur dafür, den Ball zu bringen, sondern du gibst ihm einen Leckerbissen, wenn er zuerst laut sagt: „Ich sehe einen roten Ball!"
Wie es funktioniert:
1. Die KI bekommt eine Aufgabe mit einem Bild.
2. Eine „Schiedsrichter-KI" (ein sehr kluger Text-KI) vergleicht, was die KI über das Bild sagt, mit einer wahren Beschreibung des Bildes (die von Experten erstellt wurde).
3. Die Belohnung: Die KI bekommt Punkte nicht nur für die richtige Antwort, sondern auch dafür, dass sie die Details des Bildes korrekt erkannt hat.

3. Warum ist das so genial? (Die Magie der kleinen Datenmenge)

Normalerweise braucht man riesige Datenmengen (Hunderttausende Bilder), um eine KI zu trainieren.

Der Vergleich: Andere Methoden brauchen wie ein Marathonläufer 200.000 Trainingsstunden.
Perception-R1: Diese Methode ist wie ein Sprinter, der mit nur 1.442 Beispielen (weniger als 2.000) trainiert wird.

Warum? Weil die KI durch die neue Belohnung endlich lernt, zuerst hinzusehen und dann zu denken. Sie lernt, dass sie nicht raten darf. Sie muss die Realität (das Bild) akzeptieren, bevor sie logisch schließt.

4. Das Ergebnis: Vom „Rate-Künstler" zum „Detektiv"

In den Tests haben die Forscher gezeigt, dass das neue Modell (Perception-R1) nicht nur die Matheaufgaben besser löst, sondern auch Fehler macht, die andere Modelle nicht machen:

Andere Modelle: „Ich sehe hier ein Dreieck..." (Falsch, es ist ein Viereck) -> Erraten der Antwort.
Perception-R1: „Ich sehe ein Viereck mit einer Seite von 10 cm..." -> Logische Schlussfolgerung -> Richtige Antwort.

Es ist, als würde man einem Detektiv beibringen, erst die Spuren am Tatort genau zu untersuchen, bevor er den Täter benennt.

Zusammenfassung in einem Satz

Perception-R1 ist wie ein neuer Lehrplan für KI, der sie zwingt, ihre „Augen" (die Bilderkennung) zu nutzen und die Details genau zu beschreiben, bevor sie ihre „Mundwerk" (die Antwort) öffnet. Dadurch wird sie nicht nur schlauer, sondern auch ehrlicher und braucht dabei viel weniger Trainingszeit als alle anderen.

Das Paper zeigt uns: Um eine KI wirklich intelligent zu machen, müssen wir sie nicht nur lehren, die richtige Antwort zu geben, sondern ihr beibringen, die Welt wirklich zu sehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben in den letzten Jahren erhebliche Fortschritte beim logischen Schlussfolgern (Reasoning) gemacht, insbesondere durch den Einsatz von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Bisherige RLVR-Ansätze optimieren Modelle jedoch fast ausschließlich basierend auf der Korrektheit der finalen Antwort (Accuracy Reward).

Die Autoren identifizieren ein kritisches Defizit in diesem Paradigma:

Vernachlässigung der Wahrnehmung: Diese Methoden verbessern die logischen Fähigkeiten, ignorieren aber die multimodale Wahrnehmung (Visual Perception). Die genaue Erfassung und Beschreibung visueller Inhalte ist jedoch eine Grundvoraussetzung für komplexes multimodales Reasoning.
Fehlende statistische Verbesserung: Durch McNemar-Tests zeigen die Autoren, dass MLLMs, die nur mit Accuracy-Reward trainiert wurden, keine statistisch signifikante Verbesserung ihrer Wahrnehmungsfähigkeiten gegenüber ihren Basismodellen aufweisen.
Fehlerfortpflanzung: Modelle können oft die richtige Antwort „raten" oder durch logische Tricks finden, obwohl sie fundamentale Fehler in der Bildbeschreibung machen (z. B. nicht existierende Objekte oder falsche geometrische Beziehungen beschreiben). Da der Reward nur auf dem Endergebnis basiert, werden diese Wahrnehmungsfehler nicht korrigiert und können sich sogar verstärken.

2. Methodik: Perception-R1

Um dieses Problem zu lösen, stellen die Autoren Perception-R1 vor, eine Erweiterung des RLVR-Frameworks, die eine neue visuelle Wahrnehmungs-Belohnung (Visual Perception Reward) einführt.

Der Ansatz besteht aus folgenden Schritten:

Erstellung visueller Annotationen (Visual Annotations):
- Aus erfolgreichen Chain-of-Thought (CoT)-Trajektorien eines starken multimodalen Modells (z. B. Gemini-2.5-Pro) werden auf einem Datensatz (Geometry3K) visuelle Annotationen extrahiert.
- Ein Text-only LLM extrahiert daraus atomare visuelle Fakten (z. B. „GE ist senkrecht zu DF", „Länge von GE ist 10"), die für die Problemlösung entscheidend sind. Diese dienen als Referenz (Ground Truth) für die Wahrnehmung.
Visuelle Wahrnehmungs-Belohnung ( $r_v$ ):
- Während des RLVR-Trainings wird ein judging LLM (ein bewertendes Sprachmodell) eingesetzt.
- Dieses prüft, ob die vom Policy-Modell generierte Antwort die zuvor extrahierten visuellen Annotationen korrekt widerspiegelt.
- Die Belohnung $r_v$ wird basierend auf der Konsistenz berechnet: Je mehr visuelle Fakten korrekt in der Antwort enthalten sind, desto höher ist der Reward.
Erweiterte Reward-Funktion:
Die Gesamtreward-Funktion kombiniert nun:
- Format-Reward (Strukturierung von Denken und Antwort).
- Accuracy-Reward (Korrektheit der finalen Antwort).
- Visual Perception Reward (Konsistenz mit visuellen Fakten).
- Repetition Penalty (Vermeidung von Wiederholungen).
Training:
Das Modell wird mit dem Group Relative Policy Optimization (GRPO) Algorithmus optimiert, wobei die neue Reward-Funktion verwendet wird.

3. Wichtige Beiträge

Analyse des Status Quo: Der Nachweis, dass herkömmliches Accuracy-only RLVR die multimodalen Wahrnehmungsfähigkeiten von MLLMs nicht signifikant verbessert und somit eine Hauptbarriere für weiteres Reasoning darstellt.
Neuer Reward-Mechanismus: Die Einführung einer expliziten visuellen Wahrnehmungs-Belohnung, die den Reward-Sparsity-Problem in der multimodalen Wahrnehmung adressiert und das Modell zwingt, visuelle Inhalte akkurat zu beschreiben, bevor es logisch schließt.
Hohe Dateneffizienz: Demonstration, dass durch die Integration dieser zusätzlichen Reward-Signale eine überlegene Leistung mit extrem wenig Trainingsdaten erreicht werden kann.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks für Mathematik und allgemeine multimodale Aufgaben evaluiert (MathVista, MathVerse, MathVision, WeMath, MMMU, MMStar, EMMA).

Überlegene Leistung: Perception-R1 (basierend auf Qwen2.5-VL-7B-IT) erreicht auf fast allen Benchmarks die besten Ergebnisse unter den Open-Source-Reasoning-Modellen und schneidet oft besser ab als proprietäre Modelle.
Dateneffizienz: Das Modell wurde nur mit 1.442 Trainingsdaten trainiert. Im Vergleich dazu benötigen andere State-of-the-Art-Methoden wie Vision-R1 ca. 200.000 Daten oder MM-Eureka 15.000 Daten. Perception-R1 übertrifft diese trotz des 100-fach kleineren Datensatzes.
Verbesserte Wahrnehmung:
- Auf „Vision-Only"-Subsets (wo nur Bilder als Input dienen) zeigt Perception-R1 signifikante Verbesserungen gegenüber Baselines.
- Statistische Tests (McNemar-Test) bestätigen, dass die Wahrnehmungsfähigkeiten im Vergleich zum Basismodell signifikant verbessert wurden (p-Wert < 0.05).
Qualitative Analyse: Fallstudien zeigen, dass Perception-R1 Fehler wie das Erfinden nicht existierender Objekte vermeidet und stattdessen einen „beschreibe-zuerst-dann-löse"-Ansatz verfolgt, was zu korrekteren Lösungen führt.

5. Bedeutung und Ausblick

Die Arbeit unterstreicht, dass multimodale Wahrnehmung und logisches Reasoning untrennbar miteinander verbunden sind. Ein Modell kann nicht effektiv komplexes multimodales Reasoning leisten, wenn es die visuelle Eingabe nicht präzise versteht.

Paradigmenwechsel: Die Studie schlägt vor, dass zukünftige RLVR-Ansätze für MLLMs nicht nur auf das Endergebnis, sondern auch auf die Qualität des Wahrnehmungsprozesses abzielen müssen.
Ressourceneffizienz: Der Ansatz zeigt, dass hochwertige, gezielte Reward-Signale (wie visuelle Annotationen) effektiver sind als riesige Mengen an Rohdaten. Dies macht das Training leistungsfähiger Reasoning-Modelle für die Forschungsgemeinschaft zugänglicher.
Reproduzierbarkeit: Der Code, der Datensatz und die Checkpoints werden veröffentlicht, um die Reproduzierbarkeit zu gewährleisten.

Zusammenfassend stellt Perception-R1 einen wichtigen Schritt dar, um die „Augen" von MLLMs zu schärfen, damit deren „Gehirn" (Reasoning) auf einer soliden visuellen Grundlage operieren kann.

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

🧠 Perception-R1: Wie man einer KI beibringt, wirklich hinzusehen, bevor sie redet

1. Das Problem: Der „Rate-Künstler"

2. Die Lösung: Perception-R1 (Der „Augenöffner")

3. Warum ist das so genial? (Die Magie der kleinen Datenmenge)

4. Das Ergebnis: Vom „Rate-Künstler" zum „Detektiv"

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Perception-R1

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach