GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Het paper introduceert GoT-R1, een framework dat middels versterkende leer een dubbelstaps beloningssysteem toepast om de redeneercapaciteiten van multimodale modellen te verbeteren, waardoor ze complexere visuele generaties met nauwkeurige ruimtelijke relaties en attributen kunnen produceren.

Oorspronkelijke auteurs: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

Gepubliceerd 2026-04-14
📖 5 min leestijd🧠 Diepgaand

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet maken op basis van een beschrijving. Als je zegt: "Teken een rode bal links van een blauwe auto," is dat makkelijk. Maar wat als je zegt: "Teken een kleine, glimmende rode bal die op een tak van een oude eik zit, precies links van een blauwe auto die in een modderpoel staat, terwijl er een gouden regenboog boven hen schijnt"?

Voor de meeste kunstmatige intelligenties (AI) die nu afbeeldingen maken, is dit een nachtmerrie. Ze zijn geweldig in het maken van mooie plaatjes, maar ze hebben moeite met complexe instructies waarbij veel dingen tegelijk moeten gebeuren op de juiste plek. Ze "denken" niet echt na over de ruimtelijke verhoudingen; ze raden gewoon wat er zou kunnen passen.

GoT-R1 is een nieuwe manier om deze AI's te leren nadenken voordat ze tekenen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Zomaar-Doen" AI

Stel je een kunstenaar voor die nooit een schets maakt. Hij pikt direct een penseel en begint te schilderen op basis van je woorden. Soms komt het goed, maar als je vraagt om een heel specifiek tafereel, vergeten ze details of staan de objecten op de verkeerde plek. Ze volgen een vast patroon, maar ze kunnen niet zelf bedenken hoe ze het beste kunnen schilderen.

2. De Oplossing: De "Schets-eerst" Methode (GoT)

De auteurs van dit paper hebben een methode bedacht genaamd GoT (Generation Chain-of-Thought). In plaats van direct te tekenen, dwingen ze de AI om eerst een schets te maken.

  • De AI zegt: "Oké, de gebruiker wil een vlinder links van een kaars. Ik schrijf eerst op: 'Ik teken een kaars op coördinaat X en Y. Dan teken ik een vlinder op coördinaat A en B, links van de kaars'."
  • Vervolgens: Pas als die schets klaar is, begint de AI met het daadwerkelijke schilderen.

Dit helpt al enorm, maar er zit een addertje onder het gras: de AI leert dit door voorbeelden te kopiëren. Ze leren een vast recept uit het hoofd, maar als ze een heel nieuw, moeilijk probleem krijgen, blijven ze vastzitten in dat oude recept. Ze kunnen niet zelf ontdekken of er een slimmer manier is.

3. De Revolutie: Leren door Proberen en Falen (Versterkingsleer)

Hier komt GoT-R1 om de hoek kijken. Ze gebruiken een techniek uit het spelletjeswereldje, genaamd Versterkingsleer (Reinforcement Learning).

Stel je voor dat je een hond traint om een trucje te doen:

  1. De hond probeert iets.
  2. Als het goed is, krijgt hij een beloning (een snoepje).
  3. Als het fout is, krijgt hij geen snoepje (of een zachte tik).
  4. De hond leert door te proberen welke bewegingen het meeste snoepje opleveren.

GoT-R1 doet precies dit met de AI-kunstenaar:

  • De AI krijgt een opdracht (bijv. "Vlinder links van kaars").
  • De AI probeert 16 verschillende manieren om de schets te maken en het plaatje te tekenen.
  • Een slimme beoordelaar (een andere AI, een "MLLM") kijkt naar al die 16 pogingen.
    • Is de schets logisch? (Zit de vlinder echt links?)
    • Is het plaatje mooi?
    • Komt het overeen met wat de gebruiker wilde?
  • De pogingen die het beste scoren, krijgen een gouden ster (beloning). De slechte pogingen krijgen een nul.
  • De AI leert dan: "Ah, als ik de schets zo maak, krijg ik een ster! De volgende keer doe ik het zo."

4. De Slimme Beoordelaar: De "Meester-Kritiek"

Het meest ingenieuze deel is hoe ze de AI beoordelen. Normaal gesproken is het moeilijk voor een computer om te zeggen of iets "links" of "rechts" is.

  • De truc: De beoordelaar (de MLLM) kijkt niet alleen naar de tekst van de schets. Ze tekenen de coördinaten (de getallen) om in een visueel plaatje (een leeg canvas met vakjes eromheen).
  • Omdat de beoordelaar beter is in het zien van ruimtelijke verhoudingen dan in het lezen van getallen, kan ze veel eerlijker zeggen: "Nee, die vakjes staan niet links van elkaar, dat is fout."

Waarom is dit belangrijk?

Voorheen moesten AI's zich houden aan stijve regels die mensen voor hen hadden bedacht. Met GoT-R1 leren ze zelf de beste strategieën te vinden.

  • Resultaat: Ze kunnen nu veel complexere plaatjes maken. Denk aan: "Drie blauwe vogels die vliegen in een driehoek boven een rode auto, terwijl er een zonsondergang is."
  • Ze maken minder fouten over waar dingen staan.
  • Ze houden zich strikter aan wat je vraagt.

Kort samengevat:
GoT-R1 is als het geven van een slimme coach aan een kunstenaar. In plaats van alleen maar te zeggen "Teken dit", laat de coach de kunstenaar 16 keer proberen, bekijkt elke poging heel kritisch, en zegt: "Deze manier was goed, die manier was raar." Zo leert de kunstenaar vanzelf de beste manier om complexe, ingewikkelde scènes te creëren. Het is een grote stap voorwaarts om AI te laten "nadenken" voordat het "doen".

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →