GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Das Paper stellt GoT-R1 vor, ein Framework, das durch Reinforcement Learning und ein mehrdimensionales Belohnungssystem die semantisch-räumliche Schlussfolgerung von Multimodal-Large-Modellen (MLLMs) verbessert, um komplexe Text-zu-Bild-Aufgaben mit präzisen räumlichen Beziehungen und Attributen zu lösen.

Ursprüngliche Autoren: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

Veröffentlicht 2026-04-14
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem Künstler eine sehr genaue Anweisung: „Zeichne einen Schmetterling links von einer Kerze."

Ein herkömmlicher KI-Künstler (wie ein Diffusionsmodell) hört das, schaut auf seine riesige Sammlung von Bildern und versucht, das Beste zu erraten. Oft kommt dabei etwas heraus, das hübsch aussieht, aber der Schmetterling sitzt vielleicht rechts von der Kerze, oder er hat die falsche Farbe. Der Künstler „errät" einfach, ohne wirklich nachzudenken.

Die Forscher in diesem Papier haben einen neuen Ansatz namens GoT-R1 entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der Künstler denkt nicht nach

Bisherige Modelle haben Schwierigkeiten, wenn es kompliziert wird. Sie übersetzen den Text direkt in Bilder, ohne einen Plan zu machen. Das ist wie wenn jemand versucht, ein Haus zu bauen, ohne Baupläne zu zeichnen – die Wände könnten schief stehen oder die Tür fehlt.

2. Die alte Lösung: Ein starres Skript (GoT)

Früher haben die Forscher versucht, dem KI-Künstler ein festes Skript zu geben. Das nennt man „Generation Chain-of-Thought" (GoT).

  • Die Idee: Bevor der KI den Pinsel schwingt, muss sie erst einen Text schreiben: „Okay, ich zeige zuerst eine Kerze bei Koordinaten X,Y. Dann einen Schmetterling bei A,B links davon."
  • Das Problem: Das Skript war zu starr. Der KI wurde beigebracht, genau diese Sätze zu sagen. Aber manchmal sagte das Skript zwar „links", und die KI malte trotzdem „rechts", weil sie das Skript nur auswendig gelernt hatte, ohne es wirklich zu verstehen. Es war wie ein Schauspieler, der nur den Text abliest, aber die Emotionen nicht versteht.

3. Die neue Lösung: GoT-R1 (Der lernende Künstler)

GoT-R1 ist wie ein genialer Chef, der dem KI-Künstler nicht mehr nur ein Skript gibt, sondern ihn trainiert, selbst nachzudenken.

Stellen Sie sich vor, Sie sind ein Lehrer und der KI-Künstler ist Ihr Schüler:

  1. Der Schüler macht einen Entwurf: Der Schüler (die KI) denkt sich einen Plan aus (den Text mit den Koordinaten) und malt dann das Bild.
  2. Der Lehrer prüft (Der Belohnungs-Check): Hier kommt das Magische. Ein sehr kluger „Lehrer" (eine andere starke KI, ein sogenanntes MLLM) schaut sich zwei Dinge an:
    • Den Plan: Stimmt der Text-Plan mit Ihrer Anweisung überein? (Hat er wirklich „links" geschrieben?)
    • Das Bild: Stimmt das gemalte Bild mit dem Plan überein? (Ist der Schmetterling wirklich links?)
    • Das Gesamtergebnis: Sieht das Bild gut aus?
  3. Die Belohnung (Reinforcement Learning):
    • Wenn der Schüler einen guten Plan hatte UND das Bild passt dazu, gibt es einen Goldstern (eine hohe Belohnung).
    • Wenn der Schüler einen guten Plan hatte, aber das Bild daneben ging, gibt es einen gelben Stern (mittlere Belohnung).
    • Wenn der Schüler einen schlechten Plan hatte, gibt es keinen Stern.
  4. Das Lernen: Der Schüler versucht immer wieder, neue Wege zu finden, um mehr Goldsterne zu bekommen. Er lernt durch Versuch und Irrtum, wie man komplexe Anweisungen am besten umsetzt. Er entwickelt seine eigenen, cleveren Strategien, die nicht in einem starren Skript stehen.

Warum ist das so besonders?

  • Der „Zwischen-Check": Die größte Innovation ist, dass der Lehrer nicht nur das fertige Bild bewertet, sondern auch den Denkprozess (den Plan). Das verhindert, dass der Schüler zufällig ein gutes Bild malt, obwohl sein Plan total falsch war.
  • Räumliches Verständnis: Die Forscher haben einen Trick angewendet. KIs sind oft schlecht darin, Zahlen (Koordinaten) zu lesen. Also haben sie die Koordinaten in den Plan so umgewandelt, dass der Lehrer sie als gezeichnete Kästchen auf einem Blatt Papier sieht. Das versteht die KI viel besser, als nur Zahlen zu lesen.

Das Ergebnis

Dank dieser Methode (GoT-R1) kann die KI jetzt:

  • Dinge genau dort platzieren, wo Sie es wollen (links, rechts, oben, unten).
  • Viele verschiedene Objekte in einem Bild kombinieren, ohne dass sie durcheinanderkommen.
  • Eigene, kreative Denkwege finden, um schwierige Aufgaben zu lösen, statt nur alte Muster abzuspulen.

Kurz gesagt: GoT-R1 verwandelt den KI-Künstler von einem auswendig lernenden Kopierer in einen echten Denker, der Pläne macht, diese überprüft und durch Belohnungen lernt, wie man komplexe Bilder perfekt umsetzt. Es ist der Unterschied zwischen jemandem, der eine Kochrezeptkarte abliest, und einem Koch, der versteht, wie man Zutaten kombiniert, um das perfekte Gericht zu zaubern.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →