Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Dit paper identificeert en analyseert een 'corruptiestadium' tijdens het few-shot fine-tunen van diffusiemodellen, waarbij beeldkwaliteit tijdelijk verslechtert door een versmalde leerverdeling, en lost dit op door Bayesiaanse neurale netwerken toe te passen om de distributie te verbreden en zo de beeldkwaliteit, diversiteit en trouw te verbeteren zonder extra inferentiekosten.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die alles kan schilderen: van landschappen tot portretten. Deze kunstenaar is getraind op miljoenen foto's en kan dus van alles maken. Dit is wat we een Diffusiemodel noemen in de wereld van kunstmatige intelligentie.

Nu wil je dat deze kunstenaar iets heel specifieks leert schilderen: bijvoorbeeld jouw eigen hond, of een heel specifieke vaas die je hebt. Maar je hebt maar één of een paar foto's van die hond of vaas. Dit noemen we "few-shot fine-tuning" (fijnafstemming met weinig voorbeelden).

De onderzoekers van dit paper ontdekten dat er iets raars gebeurt als je de kunstenaar probeert te leren met zo weinig foto's. Het proces verloopt in drie vreemde fases:

1. Het begin: De "Goede" Fase

Eerst gaat het goed! De kunstenaar kijkt naar je foto's en begint steeds beter te lijken op jouw hond. De schilderij wordt steeds trouwer aan het origineel.

2. Het mysterieuze probleem: De "Corruptie-fase"

Dan gebeurt er iets vreemds. Plotseling begint het schilderij te verpesten. Er verschijnen rare ruis, vlekken en gekke patronen op het beeld. Het lijkt alsof de kunstenaar in paniek raakt en begint te tekenen met een trillende hand. De kwaliteit daalt drastisch, terwijl je dacht dat het alleen maar beter zou worden. De onderzoekers noemen dit de "Corruptie-fase".

3. Het einde: De "Overdrijving"

Uiteindelijk stopt de ruis weer, maar dan is de kunstenaar te ver gegaan. Hij kan nu alleen nog maar exact die ene foto van je hond natekenen. Hij is vergeten hoe je een hond in een andere pose of met een andere achtergrond moet schilderen. Hij is "overgefit" (overgevoelig) geworden.


Waarom gebeurt dit? (De Analoge Uitleg)

De onderzoekers hebben een simpele theorie bedacht om dit uit te leggen.

Stel je voor dat de kunstenaar een groot bibliotheek heeft van alle mogelijke honden die hij ooit heeft gezien.

  • Normaal: Als je vraagt om "een hond", kiest hij een hond uit die grote bibliotheek.
  • Few-shot (Weinig foto's): Je geeft hem maar één foto. Hij probeert zijn hele bibliotheek te vervangen door alleen die ene foto.

Het probleem is dat hij zijn bibliotheek te snel en te smal maakt. Hij denkt: "Oké, dit is de enige hond die bestaat."
Wanneer hij probeert iets te schilderen dat net iets anders is dan die ene foto (bijvoorbeeld een hond die loopt in plaats van zit), raakt hij in de war. Omdat zijn "bibliotheek" zo klein is, kan hij geen goede keuze maken. Hij probeert de ruis (de onzekerheid) te negeren, maar in plaats daarvan vermenigvuldigt hij die ruis en wordt het beeld wazig en korrelig. Dat is de corruptie.


De Oplossing: De "Baysean" Kunstenaar

Hoe los je dit op? De onderzoekers gebruiken een slimme truc met Bayesiaanse Neurale Netwerken (BNNs).

In plaats van dat de kunstenaar denkt: "Ik weet het zeker, dit is de enige manier om een hond te schilderen", leren ze hem: "Ik ben niet 100% zeker. Er zijn misschien wel een paar manieren om deze hond te schilderen."

  • De Metafoor: Stel je voor dat je een gewone kunstenaar bent die alleen maar exacte kopieën maakt. Dan geef je hem een bril met een wazig filter (de BNN). Door dat filter moet hij niet perfect kopiëren, maar moet hij schatten en varieren.
  • Het Effect: Omdat hij gedwongen wordt om te variëren en niet alleen maar één exacte kopie te maken, blijft zijn "bibliotheek" van mogelijke honden groter. Hij leert dat er ruimte is voor variatie.
  • Het Resultaat: Die rare ruis en vlekken (de corruptie) verdwijnen. De kunstenaar kan nu weer prachtige, diverse foto's maken van jouw hond, zonder dat het beeld kapotgaat.

Waarom is dit geweldig?

  1. Geen extra werk: Het kost geen extra tijd om het schilderij te maken (geen extra "inference costs"). Het is alsof je de bril afzet nadat je geoefend hebt; het schilderij zelf is net zo snel klaar.
  2. Werkt overal: Of je nu DreamBooth, LoRA of OFT gebruikt (verschillende methoden om de kunstenaar te leren), deze truc werkt bij allemaal.
  3. Beter resultaat: De foto's zien er scherper uit, lijken meer op het origineel, en je kunt er meer verschillende dingen mee doen (bijvoorbeeld "mijn hond in de sneeuw" in plaats van alleen "mijn hond").

Kort samengevat:
Wanneer je een AI probeert te leren met te weinig foto's, raakt hij in paniek en maakt hij rare ruis. Door de AI een beetje "onzekerheid" te geven (via BNNs), dwing je hem om een breder beeld te hebben. Hierdoor stopt de ruis en krijg je prachtige, diverse resultaten zonder dat de AI vergeten is hoe hij moet werken.