Scaling Laws For Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen den perfekten Kuchen backen. Bisher haben die Bäcker (die KI-Forscher) einfach immer mehr Mehl, mehr Eier und mehr Ofenzeit ausprobiert, bis der Kuchen gut geschmeckt hat. Das war teuer, zeitaufwendig und oft ein Glücksspiel.

Dieses Papier von Zhengyang Liang und seinem Team ist wie ein neues, magisches Kochbuch für KI-Kuchen, speziell für eine Art von KI, die Bilder aus Texten erschafft (genannt "Diffusion Transformers" oder kurz DiT).

Hier ist die einfache Erklärung, was sie entdeckt haben:

1. Das große Rätsel: Wie viel "Ofen" braucht man?

In der Welt der großen Sprachmodelle (wie Chatbots) wussten die Forscher schon lange: Wenn man mehr Rechenleistung (den "Ofen") hat, kann man einfach mehr Daten und ein größeres Modell nehmen, und das Ergebnis wird besser. Es gibt eine feste Regel dafür.

Bei den Bild-KIs (DiT) war das aber ein Rätsel. Man wusste zwar, dass größere Modelle besser sind, aber nicht genau, wie man das Verhältnis zwischen Modellgröße, Datenmenge und Rechenleistung optimal einstellen muss. War es besser, ein riesiges Modell mit wenig Daten zu trainieren oder ein kleines Modell mit unendlich vielen Daten? Man musste es einfach raten – und das kostet Millionen von Dollar an Rechenzeit.

2. Die Entdeckung: Die "Goldene Kurve"

Die Forscher haben jetzt experimentiert. Sie haben Dutzende von KIs mit unterschiedlichen Größen und auf unterschiedlich vielen Daten trainiert, aber immer mit einem festgelegten "Geldbeutel" an Rechenleistung (z. B. 1 Billion Rechenschritte).

Stellen Sie sich vor, sie haben für jeden Geldbeutel eine Kurve gezeichnet:

Zu kleines Modell: Der Kuchen ist flach (schlechtes Ergebnis), weil das Modell zu dumm ist.
Zu großes Modell: Der Kuchen brennt an oder wird trocken (schlechtes Ergebnis), weil das Modell nicht genug Daten hatte, um zu lernen.
Die Mitte: Es gibt einen perfekten Punkt in der Mitte. Genau dort ist das Verhältnis von Modellgröße zu Datenmenge ideal für den gegebenen Geldbeutel.

Sie haben herausgefunden, dass diese Beziehung nicht zufällig ist, sondern einer strengen mathematischen Regel folgt (einer "Potenzfunktion"). Das ist wie eine Landkarte für KI-Entwickler.

3. Die Vorhersage: Der Blick in die Kristallkugel

Das Coolste an dieser Entdeckung ist die Vorhersagekraft.
Stellen Sie sich vor, Sie planen, in fünf Jahren einen riesigen, super-teuren KI-Kuchen zu backen (mit einem Budget von 1,5 Trillionen Rechenschritten). Dank dieser neuen Regel können die Forscher jetzt genau sagen:

"Baue ein Modell mit genau 1 Milliarde Parametern."
"Trainiere es mit genau X Daten."
"Das Ergebnis wird genau so gut sein wie Y."

Sie haben das tatsächlich getestet: Sie haben eine Vorhersage für ein riesiges Modell gemacht, haben es gebaut, und das Ergebnis hat exakt mit ihrer Vorhersage übereingestimmt. Das ist, als würde ein Architekt sagen: "Wenn du genau so viel Zement und Stahl verwendest, wird das Gebäude genau 100 Meter hoch stehen" – und es stimmt!

4. Warum ist das wichtig? (Die "Qualitäts-Wetterkarte")

Früher musste man ein Modell fertig trainieren und dann testen, ob die Bilder gut aussehen (z. B. mit dem FID-Score, einer Art "Schönheitsnote"). Das ist teuer.

Jetzt können die Forscher sagen: "Schauen Sie mal auf die Lernkurve während des Trainings. Wenn die Kurve so verläuft, wissen wir schon vorher, dass das Endergebnis toll wird."
Das ist wie ein Wetterbericht für KI. Man muss nicht warten, bis der Sturm da ist, um zu wissen, ob es regnen wird. Man kann die Wolken (die Trainingsdaten) beobachten und vorhersagen, wie gut das Ergebnis sein wird.

5. Der Test mit fremden Zutaten

Die Forscher haben auch getestet, ob diese Regel gilt, wenn man andere Daten verwendet (z. B. statt Kunstbildern echte Fotos von Tieren).
Ergebnis: Die Regel funktioniert immer noch! Die Kurve sieht gleich aus, nur dass der Kuchen insgesamt vielleicht etwas anders schmeckt (die absolute Qualität ist anders), aber das Verhältnis von "Ofenleistung" zu "Ergebnis" bleibt gleich. Das bedeutet, die Regel ist robust und universell.

Zusammenfassung in einem Satz

Dieses Papier gibt uns endlich die genaue Bauanleitung, um KI-Bild-Modelle so effizient wie möglich zu bauen: Es sagt uns genau, wie groß das Modell und wie viele Daten wir brauchen, um mit unserem begrenzten Rechenbudget das bestmögliche Ergebnis zu erzielen, ohne teures Raten zu müssen.

Es verwandelt das KI-Training von einem "Versuch-und-Irrtum"-Spiel in eine vorhersehbare Wissenschaft.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Scaling Laws for Diffusion Transformers

Veröffentlicht: ICLR 2026 (Konferenzpapier)
Autoren: Zhengyang Liang, Hao He, Ceyuan Yang, Bo Dai

1. Problemstellung

Diffusion Transformers (DiT) haben sich als hochleistungsfähige Architektur für die Generierung von Inhalten (z. B. Bilder und Videos) etabliert. Während die Skalierbarkeit von Diffusionsmodellen empirisch beobachtet wurde (größere Modelle führen zu besserer Qualität), fehlten bisher präzise Skalierungsgesetze (Scaling Laws).

Im Gegensatz zu Large Language Models (LLMs), bei denen die Beziehung zwischen Rechenkapazität (Compute), Modellgröße, Datenmenge und Leistung durch Potenzgesetze gut beschrieben ist, existierte für DiTs keine explizite Formulierung. Dies erschwert die Ressourcenallokation: Ohne Skalierungsgesetze ist es schwierig, für ein gegebenes Rechenbudget (FLOPs) die optimale Balance zwischen Modellgröße ( $N$ ) und Datenmenge ( $D$ ) zu finden oder die zukünftige Trainingsverluste und Generierungsqualität vorherzusagen.

2. Methodik

Die Autoren führten eine umfassende experimentelle Studie durch, um die Skalierungsgesetze für Text-zu-Bild-Generierung mit Diffusion Transformern zu etablieren.

Experimentelles Setup:
- Rechenbudgets: Experimente wurden über einen breiten Bereich von $10^{17}$ bis $6 \times 10^{18}$ FLOPs durchgeführt.
- Modellarchitektur: Es wurde eine Vanilla-Transformer-Architektur verwendet (basierend auf Peebles & Xie, 2023), wobei Eingabetokens (Text, Bild, Zeit) konkateniert wurden (In-Context Conditioning).
- Datensatz: 108 Millionen Bild-Text-Paare aus Laion-Aesthetic, neu beschriftet mit LLAVA 1.5. Ein Validierungsset von 1 Million Samples wurde verwendet.
- Formulierung: Die Modelle wurden mit Rectified Flow (RF) und v-Prediction trainiert. Als Timestep-Sampling wurde der Logit-Normal (LN) Scheduler verwendet.
- Metriken: Neben dem Trainingsverlust wurden Validierungsverlust, Variational Lower Bound (VLB), exakte Likelihood und Generierungsqualität (FID, GenEval, Human Preference) analysiert.
Analyse der IsoFLOP-Kurven:
Für jedes Rechenbudget wurden Modelle unterschiedlicher Größen trainiert. Die Verlustkurven wurden als Parabeln gefittet, um den optimalen Punkt (Minimum) für die Kombination aus Modellgröße und Datenmenge zu identifizieren. Diese optimalen Punkte wurden genutzt, um die Skalierungsbeziehungen abzuleiten.
Extrapolation und Validierung:
Basierend auf den gefitteten Potenzgesetzen wurden die optimalen Konfigurationen für ein Budget von $1,5 \times 10^{21}$ FLOPs vorhergesagt. Ein Modell mit ca. 1 Milliarde Parametern wurde unter diesen Bedingungen trainiert, um die Vorhersagegenauigkeit zu validieren.

3. Wichtige Beiträge und Ergebnisse

A. Etablierung expliziter Skalierungsgesetze

Die Studie bestätigt erstmals, dass der Trainingsverlust von DiTs eine Potenzgesetz-Beziehung mit dem Rechenbudget ( $C$ ) aufweist. Die Autoren leiten folgende Formeln für die optimale Skalierung ab:

Optimale Modellgröße ( $N_{opt}$ ): $N_{opt} \propto C^{0.5681}$
Optimale Datenmenge ( $D_{opt}$ ): $D_{opt} \propto C^{0.4319}$
Trainingsverlust ( $L$ ): $L \propto C^{-0.0273}$

Dies zeigt, dass bei steigendem Budget die Modellgröße schneller wachsen muss als die Datenmenge (Verhältnis der Exponenten $\approx 0.43/0.57$ ).

B. Vorhersagegenauigkeit

Die extrapolierenden Vorhersagen erwiesen sich als hochpräzise:

Für ein Budget von $1,5 \times 10^{21}$ FLOPs wurde ein Modell mit 958,3 Millionen Parametern trainiert.
Der tatsächliche Trainingsverlust und die Generierungsleistung (FID) stimmten fast exakt mit den durch die Skalierungsgesetze vorhergesagten Werten überein.

C. Korrelation von Verlust und Generierungsqualität

Ein zentrales Ergebnis ist, dass der Trainingsverlust ein starker Prädiktor für die Generierungsqualität ist. Metriken wie FID (Fréchet Inception Distance) folgen ebenfalls einem klaren Potenzgesetz mit dem Rechenbudget:
$FID \propto C^{-0.234}$
Dies bedeutet, dass die visuelle Qualität der generierten Bilder direkt aus dem Trainingsbudget und dem Verlust vorhergesagt werden kann, ohne aufwendige Generierungstests durchführen zu müssen.

D. Robustheit und Generalisierung (Out-of-Domain)

Die Skalierungsgesetze gelten auch für Out-of-Domain-Daten. Experimente auf dem COCO-Validierungsset (trainiert auf Laion) zeigten:

Die Trends (Steigung der Potenzgesetze) blieben über verschiedene Datensätze hinweg konsistent.
Es gab zwar einen vertikalen Offset (COCO hatte höhere Verluste/FID-Werte aufgrund der Domänenunterschiede), aber die Skalierungsbeziehung selbst blieb erhalten.

E. Skalierungsgesetze als Benchmark für Architekturvergleiche

Die Autoren nutzten die Skalierungsgesetze, um verschiedene Transformer-Architekturen zu vergleichen (Vanilla In-Context vs. Cross-Attention):

Cross-Attention Transformer zeigte einen steileren Abfall des Verlusts (besseren Exponenten) als das Vanilla In-Context-Modell.
Dies ermöglicht es, die Effizienz von Architekturen und Datenpipelines zu bewerten, indem man die Skalierungs-Exponenten vergleicht, anstatt nur absolute Ergebnisse bei einem festen Budget zu betrachten.

4. Bedeutung und Implikationen

Ressourcenoptimierung: Die Arbeit bietet einen klaren Leitfaden für Forscher und Ingenieure, wie sie Rechenbudgets optimal auf Modellgröße und Datenmenge verteilen sollten, um maximale Effizienz zu erzielen.
Kosteneffiziente Evaluation: Da der Trainingsverlust und die Skalierungsgesetze die endgültige Qualität (FID) vorhersagen, können neue Architekturen oder Datenmixe bereits bei kleinen Budgets (z. B. $10^{17}$ FLOPs) evaluiert werden, indem man die gefitteten Exponenten analysiert. Dies spart immense Rechenkosten.
Verlässliche Vorhersage: Die Fähigkeit, die Leistung von Modellen mit Milliardenparametern basierend auf kleinen Experimenten vorherzusagen, ist ein Durchbruch für die Planung zukünftiger großer DiT-Modelle.
Transferierbarkeit: Die Robustheit der Gesetze über verschiedene Datensätze hinweg unterstreicht ihre Allgemeingültigkeit und macht sie zu einem universellen Werkzeug für die Bewertung von Generativmodellen.

Fazit: Das Paper schließt eine wichtige Lücke im Verständnis von Diffusion Transformern, indem es die ersten expliziten Skalierungsgesetze für diese Architektur liefert. Es beweist, dass die Leistung von DiTs nicht nur empirisch, sondern mathematisch präzise vorhergesagt und optimiert werden kann, was die Entwicklung effizienterer und leistungsfähigerer Text-zu-Bild-Modelle beschleunigt.