Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Das Paper stellt Perception-R1 vor, eine Methode, die durch einen neuartigen visuellen Wahrnehmungsbelohnung im Rahmen des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die multimodale Wahrnehmung und Schlussfolgerungsfähigkeit von Large Multimodal Models (MLLMs) verbessert und dabei mit nur 1.442 Trainingsdaten state-of-the-art Ergebnisse auf mehreren Benchmarks erzielt.

Tong Xiao, Xin Xu, Zhenya Huang, Hongyu Gao, Quan Liu, Qi Liu, Enhong Chen

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 Perception-R1: Wie man einer KI beibringt, wirklich hinzusehen, bevor sie redet

Stell dir vor, du hast einen sehr intelligenten Schüler, der alle Bücher der Welt auswendig gelernt hat. Er kann Matheaufgaben lösen, Physik erklären und komplexe Rätsel knacken. Aber es gibt ein kleines Problem: Er liest die Aufgaben nicht richtig.

Wenn du ihm ein Bild zeigst, auf dem ein Kreis mit einem Radius von 26 steht, und er fragt: „Wie lang ist die Sehne?", antwortet er vielleicht: „Das ist einfach 24!", weil er das Muster aus dem Gedächtnis kennt. Aber wenn du ihn fragst, warum er das so berechnet, erfindet er Dinge, die auf dem Bild gar nicht sind (z. B. behauptet er, es gäbe einen rechten Winkel, wo keiner ist). Er „halluziniert" Details, nur um die Antwort zu erraten.

Das ist genau das Problem, das die Forscher in diesem Paper lösen wollen.

1. Das Problem: Der „Rate-Künstler"

Bisherige KI-Modelle (MLLMs) wurden trainiert, indem man ihnen nur eine Belohnung gab, wenn die Endantwort richtig war.

  • Die Analogie: Stell dir vor, du trainierst einen Hund. Wenn er den Ball bringt, gibt es einen Leckerbissen. Es ist egal, ob er den Ball wirklich gesehen hat oder ob er ihn zufällig gefunden hat.
  • Das Ergebnis: Der Hund (die KI) lernt, Tricks zu machen, um den Leckerbissen zu bekommen, ohne wirklich zu verstehen, was vor sich geht. In der KI-Sprache heißt das: Die Modelle werden gut im Raten der Antwort, aber schlecht im Sehen des Bildes.

Die Forscher haben herausgefunden: Selbst wenn man diese KIs mit Reinforcement Learning (einer Art „Versuch und Irrtum"-Training) weitertrainiert, werden sie nicht besser im Sehen. Sie bleiben „blind", solange die Antwort stimmt.

2. Die Lösung: Perception-R1 (Der „Augenöffner")

Die Autoren haben eine neue Methode namens Perception-R1 entwickelt. Sie fügen eine neue Art von Belohnung hinzu.

  • Die neue Regel: Bevor die KI die Antwort gibt, muss sie erst einmal genau beschreiben, was sie auf dem Bild sieht.
  • Die Analogie: Stell dir vor, du trainierst den Hund nicht nur dafür, den Ball zu bringen, sondern du gibst ihm einen Leckerbissen, wenn er zuerst laut sagt: „Ich sehe einen roten Ball!"
  • Wie es funktioniert:
    1. Die KI bekommt eine Aufgabe mit einem Bild.
    2. Eine „Schiedsrichter-KI" (ein sehr kluger Text-KI) vergleicht, was die KI über das Bild sagt, mit einer wahren Beschreibung des Bildes (die von Experten erstellt wurde).
    3. Die Belohnung: Die KI bekommt Punkte nicht nur für die richtige Antwort, sondern auch dafür, dass sie die Details des Bildes korrekt erkannt hat.

3. Warum ist das so genial? (Die Magie der kleinen Datenmenge)

Normalerweise braucht man riesige Datenmengen (Hunderttausende Bilder), um eine KI zu trainieren.

  • Der Vergleich: Andere Methoden brauchen wie ein Marathonläufer 200.000 Trainingsstunden.
  • Perception-R1: Diese Methode ist wie ein Sprinter, der mit nur 1.442 Beispielen (weniger als 2.000) trainiert wird.

Warum? Weil die KI durch die neue Belohnung endlich lernt, zuerst hinzusehen und dann zu denken. Sie lernt, dass sie nicht raten darf. Sie muss die Realität (das Bild) akzeptieren, bevor sie logisch schließt.

4. Das Ergebnis: Vom „Rate-Künstler" zum „Detektiv"

In den Tests haben die Forscher gezeigt, dass das neue Modell (Perception-R1) nicht nur die Matheaufgaben besser löst, sondern auch Fehler macht, die andere Modelle nicht machen:

  • Andere Modelle: „Ich sehe hier ein Dreieck..." (Falsch, es ist ein Viereck) -> Erraten der Antwort.
  • Perception-R1: „Ich sehe ein Viereck mit einer Seite von 10 cm..." -> Logische Schlussfolgerung -> Richtige Antwort.

Es ist, als würde man einem Detektiv beibringen, erst die Spuren am Tatort genau zu untersuchen, bevor er den Täter benennt.

Zusammenfassung in einem Satz

Perception-R1 ist wie ein neuer Lehrplan für KI, der sie zwingt, ihre „Augen" (die Bilderkennung) zu nutzen und die Details genau zu beschreiben, bevor sie ihre „Mundwerk" (die Antwort) öffnet. Dadurch wird sie nicht nur schlauer, sondern auch ehrlicher und braucht dabei viel weniger Trainingszeit als alle anderen.

Das Paper zeigt uns: Um eine KI wirklich intelligent zu machen, müssen wir sie nicht nur lehren, die richtige Antwort zu geben, sondern ihr beibringen, die Welt wirklich zu sehen.