Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Diese Arbeit identifiziert und analysiert eine unerwartete „Korruptionsphase" während des Few-Shot-Fine-Tunings von Diffusionsmodellen, die durch eine verengte Lernverteilung verursacht wird, und schlägt vor, Bayesianische Neuronale Netze zur impliziten Verbreiterung dieser Verteilung einzusetzen, um die Bildqualität und Vielfalt zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar bildhaften Vergleichen:

Das Problem: Der „Verderb"-Moment beim Lernen

Stell dir vor, du möchtest einem sehr talentierten Künstler (dem Diffusionsmodell) beibringen, wie man ein ganz bestimmtes Objekt malt – sagen wir, eine spezielle blaue Vase. Du hast aber nur ein paar Fotos davon (das ist das „Few-Shot" oder „wenige Beispiele"-Problem).

Normalerweise läuft das Training so ab:

  1. Der Anfang: Der Künstler schaut sich die Fotos an und wird immer besser. Die Bilder sehen der Vase immer ähnlicher.
  2. Der seltsame Zwischenstopp (Der „Verderb"-Stadium): Plötzlich passiert etwas Merkwürdiges. Statt besser zu werden, fängt der Künstler an, seltsame, verrauschte Muster auf die Bilder zu malen. Die Vase sieht plötzlich aus wie ein chaotischer Klecks. Die Qualität verschlechtert sich drastisch, obwohl der Künstler weiter übt.
  3. Das Ende: Wenn er weitermacht, wird er wieder gut, aber auf eine schreckliche Art: Er malt nur noch exakt das Foto nach, das er gesehen hat. Er hat keine Kreativität mehr und kann die Vase nicht mehr in anderen Situationen darstellen. Das nennt man Überanpassung (Overfitting).

Die Forscher haben dieses chaotische Mittelstück, in dem die Bilder „verderben", als „Corruption Stage" (Verderb-Stadium) bezeichnet.

Die Ursache: Zu wenig Spielraum

Warum passiert das?
Stell dir vor, der Künstler lernt nur von einem einzigen Foto. Er denkt: „Ah, eine Vase ist immer genau so, wie auf diesem einen Bild." Er verengt seinen Blickwinkel extrem.

Wenn er dann versucht, etwas Neues zu malen (z. B. die Vase mit einem Baum im Hintergrund), gerät er in Panik. Da er nur das eine Foto kennt, versucht er verzweifelt, das Neue mit dem Alten zu verbinden, und dabei entstehen diese verruchten Rausch-Muster. Er hat keine „Vorstellungskraft" mehr, weil er nur einen winzigen Ausschnitt der Welt kennt.

Die Lösung: Der „Zufalls-Generator" (Bayesian Neural Networks)

Wie kann man das verhindern? Die Forscher haben eine clevere Idee aus dem Bereich der Wahrscheinlichkeitsrechnung (Bayessche Netzwerke) angewendet.

Statt dem Künstler zu sagen: „Malt exakt so wie auf dem Foto!", sagen sie ihm: „Malt so, als würdest du ein bisschen raten."

  • Die Metapher: Stell dir vor, der Künstler hat normalerweise einen sehr strengen Lehrer, der auf jedes Detail achtet. Die neue Methode (BNN) gibt dem Künstler eine Brille mit leicht unscharfen Gläsern oder lässt ihn mit leicht zitternder Hand malen.
  • Der Effekt: Durch dieses „Zittern" oder „Raten" ist der Künstler gezwungen, nicht nur ein perfektes Bild zu lernen, sondern eine ganze Bandbreite von Möglichkeiten. Er lernt: „Eine Vase kann hier sein, aber auch dort, und sie kann leicht anders aussehen."
  • Das Ergebnis: Weil er eine breitere Vorstellung von der Vase entwickelt, gerät er nicht in Panik, wenn er neue Szenen malt. Die verrückten Rausch-Muster (der „Verderb") verschwinden.

Warum ist das genial?

  1. Kein Extra-Aufwand: Wenn der Künstler fertig ist und ein Bild verkaufen soll (die Inferenz), nimmt er die Brille ab. Er malt dann wieder ganz normal und schnell. Es kostet also keine extra Zeit oder Rechenleistung, wenn das fertige Modell genutzt wird.
  2. Bessere Qualität: Die Bilder sehen nicht nur besser aus, sondern sind auch vielfältiger. Der Künstler kann die Vase in verschiedenen Umgebungen zeigen, ohne dass sie kaputt aussieht.
  3. Universell einsetzbar: Diese Methode funktioniert mit fast allen aktuellen Techniken, um KI-Kunst zu personalisieren (wie DreamBooth oder LoRA).

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass KI-Künstler beim Lernen von wenigen Bildern kurzzeitig verrückt werden (Bilder werden verrauscht), weil sie zu starr lernen; ihre Lösung ist, dem KI-Künstler während des Trainings ein bisschen „Zufall" zu gönnen, damit er flexibler wird und am Ende wieder klare, schöne Bilder malt.