Towards High-resolution and Disentangled Reference-based Sketch Colorization

Deze paper introduceert een nieuw raamwerk voor referentiegebaseerde kleuring van schetsen dat door middel van een dubbelvertakkingsarchitectuur en Gram-regularisatie de distributieshift tussen trainings- en inferentiegegevens direct minimaliseert, waardoor state-of-the-art prestaties worden bereikt in kwaliteit, resolutie en controleerbaarheid.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een tekenaar bent die een schets maakt van een personage. De lijnen zijn er, maar het is nog zwart-wit. Je wilt dat een computer de tekening inkleurt, maar niet zomaar met willekeurige kleuren. Je wilt dat het eruitziet alsof je een specifieke foto hebt gebruikt als inspiratie: dezelfde haarkleur, dezelfde kledingstijl, dezelfde sfeer.

Dit is wat sketch colorization (het inkleuren van schetsen) doet. Maar tot nu toe hadden computers hier een groot probleem mee.

Het Probleem: De "Verkeerde Vriend"

Stel je voor dat je een computer leert kleuren te kiezen door hem duizenden voorbeelden te laten zien. In al die voorbeelden zijn de schets en de kleurrijke foto precies op elkaar afgestemd (ze komen uit dezelfde tekening).

Het probleem is dat de computer hierdoor een slechte gewoonte ontwikkelt. Hij leert niet alleen welke kleuren bij welke vormen horen, maar hij leert ook waar de vormen moeten zijn. Hij denkt: "Oh, in de foto staat een boom links, dus ik moet een boom links tekenen in de schets."

Wanneer je hem nu een nieuwe schets geeft met een andere foto als inspiratie (bijvoorbeeld een schets van een meisje, maar een foto van een bos), raakt de computer in de war. Hij probeert de boom uit de foto in de tekening van het meisje te plakken. Dit noemen de auteurs "ruimtelijke verwarring" (spatial entanglement). Het resultaat is een rommelig plaatje met extra objecten die er niet horen, of vervormde gezichten.

De Oplossing: Twee Sporen Tegelijk

De onderzoekers van deze paper (van o.a. de Universiteit van Tokio) hebben een slimme oplossing bedacht. Ze hebben een nieuw systeem gebouwd dat werkt als een tweesporig treinnetwerk:

  1. Spoor A (De Oefensessie): Hier leert de computer met perfecte voorbeelden (schets en foto komen van dezelfde tekening).
  2. Spoor B (De Echte Wereld): Hier leert de computer met "verkeerde" voorbeelden (een willekeurige schets en een willekeurige foto die niets met elkaar te maken hebben).

Het geheim zit in een speciale regelset (de "Gram Regularization Loss"). Deze regelset dwingt de computer om in beide sporen exact hetzelfde te doen wat betreft de vormen.

  • De regel is simpel: "De schets bepaalt de vormen. De foto bepaalt alleen de kleuren en de stijl."

Door deze twee sporen constant met elkaar te vergelijken en de computer te straffen als hij de vormen van de foto probeert over te nemen, leert hij eindelijk het verschil tussen "wat er moet staan" (de schets) en "hoe het eruit moet zien" (de foto).

De Extra Tools: De "Tagger" en de "Plugin"

Om het resultaat nog mooier te maken, hebben ze nog twee slimme hulpmiddelen toegevoegd:

  • De Anime-Tagger (De Vertaler):
    Normaal gesproken begrijpen AI-modellen niet precies wat er op een foto staat. Deze onderzoekers hebben een speciale "vertaler" (een Tagger Network) gebouwd die gespecialiseerd is in anime. Deze vertaler kijkt naar de foto en zegt niet alleen "dit is een foto", maar "dit is een meisje met blauw haar, een rode sjaal en een bos op de achtergrond". Hierdoor kan de computer veel preciezer de juiste kleuren toewijzen aan de juiste delen van de tekening.

  • De Plugin (De Detail-Verfijner):
    Soms ziet de achtergrond er nog wat vaag of wazig uit. Ze hebben een extra module toegevoegd die zich focust op de fijne details en de textuur van de achtergrond. Dit zorgt ervoor dat de hele afbeelding er scherp en consistent uitziet, zelfs in hoge resolutie (zoals 1024x1024 pixels of groter).

Het Resultaat: Een Meesterwerk

Wat levert dit op?

  • Hoge kwaliteit: De tekeningen zijn haarscherp en hebben prachtige texturen.
  • Geen rommel: Er staan geen vreemde bomen of extra hoofden in de tekening die er niet horen.
  • Controle: Je kunt precies kiezen welke kleuren en stijlen je wilt, zonder dat de vorm van je tekening verandert.

In tests en bij mensen die de resultaten bekeken, won dit nieuwe systeem het van alle andere bestaande methoden. Het is alsof ze de computer hebben leren onderscheiden tussen een blauwdruk (de schets) en een verfdoos (de foto), zodat hij de verf perfect op de blauwdruk kan aanbrengen zonder de lijnen te verstoren.

Kortom: Ze hebben een manier gevonden om AI te leren dat de structuur van een tekening heilig is, en dat de stijl vrij mag worden gekozen.