Navigating with Annealing Guidance Scale in Diffusion Space

Die vorgestellte Arbeit stellt einen neuartigen, speicher- und aktivierungsfreien Annealing-Guidance-Scheduler vor, der die Guidance-Skala in Diffusionsmodellen dynamisch anpasst, um die Bildqualität und die Textübereinstimmung im Vergleich zur herkömmlichen Classifier-Free Guidance signifikant zu verbessern.

Shai Yehezkel, Omer Dahary, Andrey Voynov, Daniel Cohen-Or

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beauftragen einen genialen, aber manchmal etwas verwirrten Maler, ein Bild nach Ihrer Beschreibung zu malen. Sie sagen: „Mal mir einen Drachen, der mit einem Ritter Karten spielt."

Der Maler (das KI-Modell) beginnt mit einem leeren, verrauschten Blatt Papier. Schritt für Schritt entfernt er das Rauschen und formt das Bild. Aber hier liegt das Problem: Der Maler hat zwei innere Stimmen.

  1. Die unaufgeforderte Stimme: Sie sagt: „Mal einfach etwas, das allgemein schön aussieht." (Ein zufälliger Drache, ein zufälliger Ritter).
  2. Die beauftragte Stimme: Sie sagt: „Nein! Es muss genau das sein, was der Kunde will!" (Ein Drache, der genau so aussieht, wie beschrieben).

Das Problem mit dem alten Weg (CFG)
Bisher haben die Künstler einen festen Regler benutzt, um zu entscheiden, wie stark sie auf die „beauftragte Stimme" hören sollen. Das nennt man Guidance Scale (Führungsstärke).

  • Ist der Regler zu niedrig, hört der Maler kaum zu und malt etwas Beliebiges.
  • Ist der Regler zu hoch, wird der Maler so stur, dass er die Realität vergisst. Er malt vielleicht einen Drachen mit drei Köpfen oder verzerrte Arme, nur weil er so sehr versucht hat, Ihre Worte zu befolgen. Er „überreagiert".

Das ist wie ein Autofahrer, der das Lenkrad entweder gar nicht anrührt oder es so fest umklammert, dass das Auto wild durch die Kurven schleudert.

Die neue Lösung: Der „Anpassungs-Regler" (Annealing Scheduler)
Die Autoren dieses Papers haben eine clevere Idee: Warum sollte der Regler immer auf demselben Wert stehen? Warum nicht einen intelligenten Navigator einsetzen, der den Regler während des Malens dynamisch anpasst?

Stellen Sie sich diesen Navigator wie einen erfahrenen Reiseleiter vor, der den Maler durch eine komplexe, bergige Landschaft führt (die „Diffusions-Landschaft").

  1. Der Start (Viel Rauschen): Am Anfang ist alles chaotisch. Der Navigator sagt: „Halte dich an die grobe Richtung, aber sei flexibel." (Der Regler ist moderat).
  2. Die Mitte (Der Weg wird klarer): Der Maler nähert sich einem Ziel. Der Navigator schaut genau hin: „Hey, du bist fast beim Ziel, aber deine Hände sehen noch komisch aus. Pass den Regler an, um die Details zu glätten, ohne das ganze Bild zu zerstören."
  3. Das Ziel (Das fertige Bild): Gegen Ende sagt der Navigator: „Jetzt bist du fast da. Sei vorsichtig, nicht zu sehr zu drücken, sonst verdirbst du die letzten Details."

Wie funktioniert das technisch (in einfachen Worten)?
Der Navigator beobachtet ständig einen wichtigen Hinweis: Wie sehr unterscheiden sich die zwei Stimmen des Malers?

  • Wenn die „beauftragte Stimme" und die „unaufgeforderte Stimme" fast das Gleiche sagen, ist der Maler schon auf dem richtigen Weg. Der Navigator dämpft den Regler, damit das Bild natürlich bleibt.
  • Wenn die Stimmen sich stark streiten, weiß der Navigator: „Aha, wir sind noch unsicher, wir müssen etwas mehr Druck ausüben, um in die richtige Richtung zu kommen."

Dieser Prozess nennt sich Annealing (Tempern). Es ist wie das langsame Abkühlen von Metall, um es stabil und stark zu machen. Der Regler wird nicht starr festgelegt, sondern „temperiert" – er passt sich der Situation an.

Das Ergebnis
Dank dieses intelligenten Navigators entstehen Bilder, die:

  • Genau das tun, was Sie sagen (der Drache spielt wirklich Karten).
  • Natürlich und schön aussehen (keine verzerrten Gliedmaßen oder seltsame Artefakte).
  • Schneller und effizienter sind, da keine zusätzlichen Rechenressourcen nötig sind.

Zusammenfassend:
Statt einen starren Schalter zu benutzen, der den KI-Maler entweder zu faul oder zu stur macht, hat diese Methode einen dynamischen Co-Piloten eingeführt. Dieser Co-Pilot weiß genau, wann er sanft lenken muss und wann er fest anpacken darf, um das perfekte Bild zu erhalten. Es ist der Unterschied zwischen einem Autofahrer, der das Lenkrad fest umklammert, und einem Profi-Rennfahrer, der das Lenkrad millimetergenau und situativ bewegt.