Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

Dit artikel introduceert SLD-Font, een structureel gedissocieerd diffusiemodel dat door het scheiden van content en stijl op structuurniveau, gecombineerd met een achtergrondruisverwijderingsmodule en een parameter-efficiënte fijne-tuningstrategie, hoogwaardige Chinese lettertypen genereert met slechts enkele voorbeeldafbeeldingen.

Jie Li, Suorong Yang, Jian Zhao, Furao Shen

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkalligraaf bent die een nieuw lettertype moet ontwerpen. In het verleden moest je voor elk van de 27.000 Chinese karakters handmatig de vorm tekenen. Dat is net als proberen een hele bibliotheek te bouwen door elke steen met de hand te vormen: het kost eeuwen en je wordt er moe van.

Vandaag gebruiken computers dit probleem op te lossen. Ze proberen een paar voorbeelden van een nieuw lettertype te nemen en de rest van de karakters automatisch te "verzinnen". Maar hier zit een addertje onder het gras: de computer is vaak zo goed in het kopiëren van de stijl (de dikte van de lijnen, de hoekjes), dat hij de inhoud (het karakter zelf) verdraait. Het resultaat lijkt dan op een raadselachtig krabbelwerk in plaats van een leesbaar karakter.

Dit paper introduceert SLD-Font, een slimme nieuwe manier om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Grote Splitsing: Inhoud vs. Stijl

Stel je voor dat je een foto wilt maken van een vriend in een nieuw kostuum.

  • De oude manier: De computer probeerde de foto en het kostuum door elkaar te mengen. Soms kreeg je een vriend met een hoed, maar dan was zijn neus ook ineens een hoed. De "inhoud" en "stijl" waren verward.
  • De nieuwe manier (SLD-Font): De auteurs maken twee aparte kanalen aan.
    • Kanaal 1 (De Bouwplaat): Dit kanaal kijkt alleen naar de structuur van het karakter (bijvoorbeeld een standaard SimSun-lettertype). Het zorgt ervoor dat het karakter eruitziet als een "A" en niet als een "B". Het is de stevige fundering van het huis.
    • Kanaal 2 (De Verf en Stijl): Dit kanaal kijkt naar de voorbeelden die jij geeft (het nieuwe lettertype). Het zorgt voor de dikte van de lijnen, de hoekjes en de sfeer.

De magie zit hem in het feit dat deze twee kanalen niet met elkaar verward worden. De computer bouwt eerst het huis (inhoud) en schildert het daarna pas in de gewenste stijl. Hierdoor blijft het karakter leesbaar, maar ziet het eruit alsof het uit het nieuwe lettertype komt.

2. De "Ruis-Verwijderaar" (BNR)

Soms, als een computer een afbeelding maakt, komt er een beetje "stof" of "ruis" op de witte achtergrond. Bij gewone foto's zie je dit niet, omdat er veel kleuren zijn. Maar bij Chinese karakters, met hun strakke zwarte lijnen op een witte achtergrond, ziet zo'n beetje ruis eruit als vlekken of een vieze achtergrond.

De auteurs hebben een speciale "stofzuiger" (de Background Noise Removal module) gebouwd. Deze kijkt naar het resultaat, ziet die vlekken op de witte achtergrond en veegt ze weg, zodat het karakter er weer strak en schoon uitziet, alsof het net uit de drukkerij komt.

3. Slim Leren zonder Vergeten (PEFT)

Dit is misschien wel het slimste stukje. Stel je voor dat je een chef-kok bent die een nieuw recept wil leren.

  • De oude manier: Je probeert het hele recept van begin tot eind te herschrijven. Het risico is groot dat je vergeet hoe je een ei moet bakken, omdat je te gefocust bent op de nieuwe saus. De computer "leert" dan het nieuwe lettertype, maar vergeet hoe hij andere karakters moet maken.
  • De nieuwe manier (PEFT): De computer past alleen de "specerijen" aan (de stijl), maar laat de basisrecepten (de structuur van de karakters) intact. Hij leert dus alleen hoe je de lijnen moet tekenen in de nieuwe stijl, zonder de vorm van de letters zelf te veranderen. Hierdoor kan hij heel snel nieuwe lettertypes leren, zelfs met maar een paar voorbeelden, zonder dat hij de inhoud verdraait.

Waarom is dit belangrijk?

Voorheen moesten mensen urenlang handmatig lettertypes ontwerpen. Met deze nieuwe methode kunnen we:

  1. Snelheid: Lettertypes maken in een handomdraai.
  2. Kwaliteit: De karakters blijven perfect leesbaar (geen "krabbelwerk").
  3. Flexibiliteit: Je kunt elk gewenst lettertype (van strakke zakelijke letters tot handgeschreven krabbels) nabootsen zonder dat de computer de boel verpest.

Kortom: SLD-Font is als een super-slome assistent die de bouwplaat (de inhoud) vasthoudt, terwijl hij met een magische verfkwast (de stijl) het hele karakter in een nieuw jasje steekt, zonder dat er een vlekje op komt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →