CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

CoLoGen is een unificerend diffusiemodel dat het conflict tussen conceptuele en lokale representaties oplost door middel van progressief leren en een speciaal 'Progressive Representation Weaving'-module, waardoor het superieure prestaties behaalt bij diverse beeldgeneratietaken.

YuXin Song, Yu Lu, Haoyuan Sun, Huanjin Yao, Fanglong Liu, Yifan Sun, Haocheng Feng, Hang Zhou, Jingdong Wang

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die alles kan doen: van het schilderen van een droomlandschap tot het precieze verplaatsen van een kopje koffie op een foto. Tot nu toe was dit voor kunstmatige intelligentie (AI) een enorme uitdaging.

Deze paper introduceert CoLoGen, een nieuwe manier om AI te leren tekenen en bewerken. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

Het Grote Probleem: De "Denker" vs. De "Meten"

Stel je voor dat je een AI wilt bouwen die twee heel verschillende taken moet doen:

  1. Concepten begrijpen: "Teken een gelukkige hond in een park." Hier moet de AI weten wat een hond is, wat geluk is en hoe een park eruitziet. Dit noemen we het Concept.
  2. Locatie bepalen: "Verplaats de hond precies naar de linkerkant van de foto." Hier moet de AI meten en plannen waar dingen staan. Dit noemen we de Locatie.

Het probleem is dat deze twee vaardigheden in de hersenen van de AI (de "latent space") vaak met elkaar in conflict komen. Het is alsof je een student vraagt om tegelijkertijd een gedicht te schrijven (creativiteit) en een wiskundig bewijs te maken (precisie). Als je ze allebei tegelijk probeert te leren, raken ze in de war. De AI wordt dan goed in het ene, maar slecht in het andere.

De Oplossing: CoLoGen (De Slimme Leermeester)

CoLoGen lost dit op door niet alles in één keer te leren, maar door een stap-voor-stap leerplan te gebruiken. Het is alsof je een leerling eerst laat lezen en schrijven (concepten), dan laat meten en tekenen (locatie), en pas daarna laat werken aan complexe projecten waar beide nodig zijn.

De methode bestaat uit drie fases:

  1. Fase 1: De Basis (Het "Vul-en-Verander" Spel)
    De AI leert eerst wat objecten zijn en hoe ze eruit zien door gaten in foto's op te vullen (inpainting). Het leert: "Dit is een hond, dit is een boom." Het bouwt een sterke Concept-vaardigheid op.
  2. Fase 2: De Precisie (Het "Meten" Spel)
    Vervolgens leert de AI om precies te kijken waar dingen staan. Het krijgt oefeningen waarbij het moet wijzen op een hond in een foto of een lijn volgen. Hier bouwt het een sterke Locatie-vaardigheid op.
  3. Fase 3: De Meester (De "Samenwerking")
    Pas nu, als de AI beide vaardigheden apart goed beheerst, leert het ze te combineren. De AI leert: "Oké, ik weet wat een hond is, en ik weet precies waar hij moet staan. Laten we nu een opdracht uitvoeren: 'Verplaats de hond naar de zon'."

Het Geheim: De "Weefmachine" (PRW)

Hoe zorgt CoLoGen ervoor dat de AI niet vergeten wat het in Fase 1 en 2 heeft geleerd? Ze gebruiken een slimme techniek genaamd Progressive Representation Weaving (PRW).

Stel je voor dat de AI een grote fabriek is met verschillende specialisten:

  • De ene specialist is een Dichter (goed voor concepten).
  • De andere specialist is een Architect (goed voor locatie en structuur).

In oude systemen moesten de Dichter en de Architect altijd samenwerken aan elke taak, wat leidde tot ruzie en verwarring.
Bij CoLoGen is er een Slimme Manager (de "Router").

  • Als de opdracht is "Teken een droom", roept de Manager de Dichter aan.
  • Als de opdracht is "Zorg dat de hond precies in het raam past", roept de Manager de Architect aan.
  • Als de opdracht complex is ("Teken een droomhond in een raam"), roept de Manager ze beide aan, maar zorgt hij ervoor dat ze netjes samenwerken zonder elkaar in de weg te zitten.

Deze "Manager" zorgt ervoor dat de kennis van de Dichter en de Architect stap voor stap in elkaar wordt geweven (weaving), zodat ze één sterke, flexibele kracht worden zonder dat de ene vaardigheid de andere verdringt.

Waarom is dit belangrijk?

Vroeger waren AI-modellen ofwel goed in het maken van mooie plaatjes, ofwel goed in het precies bewerken van foto's, maar zelden in beide. CoLoGen is als een alleskunner die:

  • Foto's kan bewerken op basis van tekst (bijv. "Maak het zonnig").
  • Nieuwe objecten kan toevoegen die er echt uitzien.
  • Foto's kan aanpassen aan specifieke vormen (zoals een silhouet).

Kort samengevat: CoLoGen leert AI niet om alles tegelijk te doen, maar bouwt eerst sterke losse vaardigheden op en weeft ze daarna slim samen. Hierdoor wordt de AI niet alleen slimmer, maar ook betrouwbaarder in het uitvoeren van complexe creatieve taken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →