Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Die Arbeit stellt CEM vor, einen plugin-basierten Ansatz zur Minimierung kumulativer Fehler durch dynamische Programmierung, der die Genauigkeit von beschleunigten Diffusion-Transformern ohne zusätzlichen Rechenaufwand signifikant verbessert.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der müde Maler

Stell dir vor, ein Diffusions-Transformer (wie FLUX oder Stable Diffusion) ist ein genialer Maler, der Bilder aus dem Nichts erschafft. Aber dieser Maler ist sehr langsam. Um ein Bild zu malen, muss er viele Schritte durchgehen: Er beginnt mit einem chaotischen Klotz aus Farbe (Rauschen) und entfernt in jedem Schritt ein bisschen davon, bis das Bild klar wird.

Das Problem: Dieser Prozess dauert ewig. Ein Bild kann Sekunden, ein Video sogar Minuten brauchen.

Um ihn schneller zu machen, haben andere Forscher eine Idee gehabt: Der "Kopier-Kleber"-Trick (Caching).
Statt den Maler jedes Mal neu rechnen zu lassen, sagen wir: "Hey, in den letzten Schritten hat sich nicht viel geändert. Wir nehmen einfach das Ergebnis von vor ein paar Schritten und kopieren es." Das ist wie ein Assistent, der dem Maler sagt: "Mach das Gleiche wie vorhin, das reicht!"

Aber hier liegt das Problem:
Wenn der Assistent zu oft kopiert, häufen sich kleine Fehler an.

  • Schritt 1: Kleiner Fehler.
  • Schritt 2: Der Fehler wird auf den ersten Fehler draufgelegt.
  • Schritt 10: Das Bild ist total verzerrt, Gesichter sehen aus wie Brei, und die Farben sind falsch.

Bisherige Methoden versuchten, diese Fehler zu korrigieren, indem sie einfach irgendeine Regel aufstellten (z. B. "Kopiere immer alle 5 Schritte"). Das ist aber wie ein starrer Kochrezept, das nicht merkt, dass der Maler manchmal sehr vorsichtig sein muss (wenn er Details malt) und manchmal schnell sein kann (wenn er den Hintergrund macht). Wenn man die starre Regel anwendet, macht man genau dann einen Fehler, wenn man ihn am wenigsten haben sollte.


Die Lösung: CEM (Der intelligente Navigator)

Die Autoren dieses Papiers haben CEM entwickelt. Stell dir CEM nicht als einen neuen Maler vor, sondern als einen super-intelligenten Navigator für den Maler.

1. Die Landkarte zeichnen (Offline Error Modeling)

Bevor der Maler überhaupt anfängt zu arbeiten, fährt der Navigator einmal durch die Werkstatt und zeichnet eine Landkarte der Fehler.

  • Er probiert aus: "Was passiert, wenn wir alle 2 Schritte kopieren? Was passiert bei 5? Bei 10?"
  • Er merkt sich: "Aha! Wenn der Maler gerade den Hintergrund malt, ist Kopieren super sicher. Aber wenn er die Augen eines Gesichts malt, darf er gar nicht kopieren, sonst werden die Augen schief."
  • Wichtig: Das macht er einmal im Voraus (offline). Er braucht dafür keine extra Zeit, wenn das eigentliche Bild gemalt wird. Es ist wie ein Wetterbericht, den man am Morgen liest, bevor man losfährt.

2. Der perfekte Plan (Dynamic Programming)

Jetzt hat der Navigator eine Landkarte, die genau zeigt, wo die "Fehler-Berge" liegen. Er nutzt einen cleveren Algorithmus (Dynamic Programming), um den perfekten Fahrplan zu berechnen.

  • Er sagt: "Okay, wir müssen das Bild in 10 Schritten fertig haben (das ist unser Zeitbudget). Um die beste Qualität zu bekommen, kopieren wir in Schritt 1-5 alle 3 Schritte, aber in Schritt 6-10 kopieren wir gar nicht, weil da die Details kommen."
  • Er findet die Kombination, bei der die Summe aller Fehler so klein wie möglich ist.

3. Plug-and-Play (Der universelle Schlüssel)

Das Schönste an CEM ist, dass es wie ein Universal-Adapter funktioniert.

  • Es ist egal, ob der Maler ein "Stable Diffusion" oder ein "Hunyuan"-Maler ist.
  • Es ist egal, ob der Maler schon durch Quantisierung (eine Art "Komprimierung" für noch mehr Speed) verkleinert wurde.
  • Du steckst den CEM-Adapter einfach in das bestehende System. Er ersetzt den alten, dumm-dicken Fahrplan durch seinen intelligenten, optimierten Plan.

Warum ist das so cool? (Die Vorteile)

  1. Kein Training nötig: Du musst den Maler nicht neu ausbilden. Das spart enorme Rechenzeit und Geld.
  2. Schneller UND besser: Bisher musste man sich entscheiden: "Will ich schnell sein (und schlechte Bilder) oder gute Bilder (und langsam sein)?" Mit CEM bekommst du beides. Die Bilder sind fast so gut wie beim Original, aber viel schneller.
  3. Es funktioniert überall: Die Tests zeigen, dass es bei Text-zu-Bild, Text-zu-Video und sogar bei sehr komplexen Modellen funktioniert.

Zusammenfassung in einem Satz

Stell dir vor, du fährst mit einem Auto von A nach B. Bisher hast du eine starre Route gefahren, die oft in Stau geriet (Fehler). CEM ist wie ein Navi, das vorher die ganze Stadt analysiert hat und dir nun die perfekte Route berechnet, die genau dann umfährt, wenn es staut, und genau dann schnell macht, wenn die Straße frei ist – und das alles, ohne dass du den Motor umbauen musst.

Das Ergebnis? Du kommst schneller an, und die Fahrt ist viel angenehmer (das Bild ist schöner).