Scaling Laws For Diffusion Transformers

Diese Studie etabliert erstmals Skalierungsgesetze für Diffusionstransformer (DiT), die es ermöglichen, auf Basis von Rechenbudgets optimale Modellgrößen und Datenmengen vorherzusagen sowie die Generationsleistung und Datenqualität kosteneffizient zu bewerten.

Zhengyang Liang, Hao He, Ceyuan Yang, Bo Dai

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen den perfekten Kuchen backen. Bisher haben die Bäcker (die KI-Forscher) einfach immer mehr Mehl, mehr Eier und mehr Ofenzeit ausprobiert, bis der Kuchen gut geschmeckt hat. Das war teuer, zeitaufwendig und oft ein Glücksspiel.

Dieses Papier von Zhengyang Liang und seinem Team ist wie ein neues, magisches Kochbuch für KI-Kuchen, speziell für eine Art von KI, die Bilder aus Texten erschafft (genannt "Diffusion Transformers" oder kurz DiT).

Hier ist die einfache Erklärung, was sie entdeckt haben:

1. Das große Rätsel: Wie viel "Ofen" braucht man?

In der Welt der großen Sprachmodelle (wie Chatbots) wussten die Forscher schon lange: Wenn man mehr Rechenleistung (den "Ofen") hat, kann man einfach mehr Daten und ein größeres Modell nehmen, und das Ergebnis wird besser. Es gibt eine feste Regel dafür.

Bei den Bild-KIs (DiT) war das aber ein Rätsel. Man wusste zwar, dass größere Modelle besser sind, aber nicht genau, wie man das Verhältnis zwischen Modellgröße, Datenmenge und Rechenleistung optimal einstellen muss. War es besser, ein riesiges Modell mit wenig Daten zu trainieren oder ein kleines Modell mit unendlich vielen Daten? Man musste es einfach raten – und das kostet Millionen von Dollar an Rechenzeit.

2. Die Entdeckung: Die "Goldene Kurve"

Die Forscher haben jetzt experimentiert. Sie haben Dutzende von KIs mit unterschiedlichen Größen und auf unterschiedlich vielen Daten trainiert, aber immer mit einem festgelegten "Geldbeutel" an Rechenleistung (z. B. 1 Billion Rechenschritte).

Stellen Sie sich vor, sie haben für jeden Geldbeutel eine Kurve gezeichnet:

  • Zu kleines Modell: Der Kuchen ist flach (schlechtes Ergebnis), weil das Modell zu dumm ist.
  • Zu großes Modell: Der Kuchen brennt an oder wird trocken (schlechtes Ergebnis), weil das Modell nicht genug Daten hatte, um zu lernen.
  • Die Mitte: Es gibt einen perfekten Punkt in der Mitte. Genau dort ist das Verhältnis von Modellgröße zu Datenmenge ideal für den gegebenen Geldbeutel.

Sie haben herausgefunden, dass diese Beziehung nicht zufällig ist, sondern einer strengen mathematischen Regel folgt (einer "Potenzfunktion"). Das ist wie eine Landkarte für KI-Entwickler.

3. Die Vorhersage: Der Blick in die Kristallkugel

Das Coolste an dieser Entdeckung ist die Vorhersagekraft.
Stellen Sie sich vor, Sie planen, in fünf Jahren einen riesigen, super-teuren KI-Kuchen zu backen (mit einem Budget von 1,5 Trillionen Rechenschritten). Dank dieser neuen Regel können die Forscher jetzt genau sagen:

  • "Baue ein Modell mit genau 1 Milliarde Parametern."
  • "Trainiere es mit genau X Daten."
  • "Das Ergebnis wird genau so gut sein wie Y."

Sie haben das tatsächlich getestet: Sie haben eine Vorhersage für ein riesiges Modell gemacht, haben es gebaut, und das Ergebnis hat exakt mit ihrer Vorhersage übereingestimmt. Das ist, als würde ein Architekt sagen: "Wenn du genau so viel Zement und Stahl verwendest, wird das Gebäude genau 100 Meter hoch stehen" – und es stimmt!

4. Warum ist das wichtig? (Die "Qualitäts-Wetterkarte")

Früher musste man ein Modell fertig trainieren und dann testen, ob die Bilder gut aussehen (z. B. mit dem FID-Score, einer Art "Schönheitsnote"). Das ist teuer.

Jetzt können die Forscher sagen: "Schauen Sie mal auf die Lernkurve während des Trainings. Wenn die Kurve so verläuft, wissen wir schon vorher, dass das Endergebnis toll wird."
Das ist wie ein Wetterbericht für KI. Man muss nicht warten, bis der Sturm da ist, um zu wissen, ob es regnen wird. Man kann die Wolken (die Trainingsdaten) beobachten und vorhersagen, wie gut das Ergebnis sein wird.

5. Der Test mit fremden Zutaten

Die Forscher haben auch getestet, ob diese Regel gilt, wenn man andere Daten verwendet (z. B. statt Kunstbildern echte Fotos von Tieren).
Ergebnis: Die Regel funktioniert immer noch! Die Kurve sieht gleich aus, nur dass der Kuchen insgesamt vielleicht etwas anders schmeckt (die absolute Qualität ist anders), aber das Verhältnis von "Ofenleistung" zu "Ergebnis" bleibt gleich. Das bedeutet, die Regel ist robust und universell.

Zusammenfassung in einem Satz

Dieses Papier gibt uns endlich die genaue Bauanleitung, um KI-Bild-Modelle so effizient wie möglich zu bauen: Es sagt uns genau, wie groß das Modell und wie viele Daten wir brauchen, um mit unserem begrenzten Rechenbudget das bestmögliche Ergebnis zu erzielen, ohne teures Raten zu müssen.

Es verwandelt das KI-Training von einem "Versuch-und-Irrtum"-Spiel in eine vorhersehbare Wissenschaft.