Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest den perfekten Kuchen backen. Bisher dachten die meisten Bäcker (also die Entwickler von KI-Sprachmodellen), dass der einzige Geheimtipp für einen tollen Kuchen die Größe des Ofens und die Menge an Zutaten ist.

Die alte Regel lautete: „Je größer der Ofen (mehr Parameter) und je mehr Mehl und Zucker (mehr Trainingsdaten) du reinwirfst, desto besser schmeckt der Kuchen." Das nennt man „Scaling Laws" (Skalierungsgesetze).

Aber in dieser neuen Studie haben die Forscher von der Carnegie Mellon University etwas Spannendes entdeckt: Nur die Größe reicht nicht aus!

Hier ist die einfache Erklärung der Forschung, gespickt mit ein paar Analogien:

1. Das Problem: Der riesige, aber langweilige Kuchen

Stell dir vor, du hast einen riesigen Ofen und wirfst eine Billion Stückchen „das" (das deutsche Wort für „the") hinein. Selbst wenn dein Ofen riesig ist, wird der Kuchen nicht lecker. Er wird einfach nur langweilig.

Die Forscher haben 92 verschiedene KI-Modelle untersucht – von kleinen, handlichen Modellen bis hin zu riesigen Giganten. Sie stellten fest: Manchmal schmeckt ein kleinerer Kuchen mit speziellen Zutaten viel besser als ein riesiger Kuchen mit billigen Zutaten.

2. Die neue Entdeckung: Es kommt auf die Zutaten an

Die Forscher haben eine riesige Datenbank erstellt, in der sie nicht nur die Größe der Modelle notiert haben, sondern auch die Rezeptur:

Die Architektur: Wie ist der Ofen gebaut? (Ist er modern oder veraltet?)
Die Daten-Mischung: Was genau wurde hineingeworfen?

Das Ergebnis ist wie eine Kochshow:

Code ist der Gewürz-Booster: Wenn man dem Modell etwas Programmcode (wie Python oder JavaScript) beibringt, wird es besser im logischen Denken und im Lösen von Rätseln. Aber Vorsicht! Zu viel Code macht den Kuchen für normale Gespräche ungenießbar. Der „Sweet Spot" liegt bei etwa 15–25 % Code. Das ist wie eine Prise Salz – zu wenig, und es schmeckt fade; zu viel, und es ist ungenießbar.
Das Internet ist der „Fake-News"-Filter: Modelle, die zu viel aus dem allgemeinen Internet (Webseiten, Foren, Blogs) gelernt haben, neigen dazu, Unsinn zu erzählen oder Lügen zu glauben. Es ist, als würde man jemandem nur Boulevardzeitungen geben – er wird zwar viel wissen, aber oft falsch liegen.
Bücher und Lehrbücher sind die Basis: Für echtes Wissen und Fakten sind klassische Bücher und akademische Texte viel besser als das wilde Internet.

3. Die Vorhersage: Ein Kristallkugel-Test

Früher sagten Forscher die Leistung einer KI nur basierend auf ihrer Größe voraus (wie bei einem Sportler: Je größer, desto schneller).
Diese Forscher haben nun einen neuen „Kristallkugel"-Test entwickelt. Sie haben einen Computer-Algorithmus trainiert, der nicht nur auf die Größe schaut, sondern auf das gesamte Rezept.

Das Ergebnis: Wenn man die Zutatenliste (Daten-Mischung) und die Ofen-Bauart (Architektur) mit einbezieht, kann man vorhersagen, wie gut eine KI sein wird, 3 % bis 28 % genauer als wenn man nur auf die Größe schaut.

4. Was bedeutet das für uns?

Stell dir vor, du bist ein Investor, der in KI-Startups investiert.

Die alte Methode: „Ich investiere nur in die Firma, die den größten Ofen hat."
Die neue Methode: „Ich schaue mir an, welche Firma die besten Zutaten mischt und den modernsten Ofen baut."

Die Studie zeigt, dass man nicht unbedingt den größten und teuersten Ofen braucht, um den besten Kuchen zu backen. Man braucht ein durchdachtes Rezept.

Zusammenfassung in einem Satz:

Es reicht nicht, einfach nur mehr Daten und größere Modelle zu haben; der Mix aus den richtigen Daten (wie Code oder Bücher) und die Art und Weise, wie das Modell gebaut ist, entscheiden darüber, ob die KI schlau und wahrheitsgetreu ist oder nur groß und dumm.

Die Forscher hoffen, dass diese Erkenntnisse helfen, in Zukunft bessere, effizientere und ehrlichere KIs zu bauen, ohne jedes Mal Billionen von Dollar in riesige Rechenzentren zu stecken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Leistungsfähigkeit von Sprachmodellen (LLMs) wird traditionell stark durch Skalierungsgesetze (Scaling Laws) erklärt, die eine Beziehung zwischen der Anzahl der Parameter ( $N$ ), der Anzahl der Trainings-Token ( $D$ ) und dem erwarteten Verlust herstellen. Die Forschung geht jedoch zunehmend davon aus, dass diese beiden Faktoren allein nicht ausreichen, um die Leistung in downstream-Aufgaben (z. B. Reasoning, Code-Generierung, Faktenwissen) präzise vorherzusagen.

Das Paper adressiert die Frage: Welchen Einfluss haben andere Designentscheidungen (Architektur, Datenzusammensetzung, Datenqualität) auf die downstream-Leistung, wenn man sie isoliert von der reinen Skalierung betrachtet? Es wird beobachtet, dass kleinere Modelle, die auf kuratierten Daten trainiert wurden oder spezifische architektonische Entscheidungen treffen, größere Modelle übertreffen können, was durch reine Skalierungsgesetze nicht erklärbar ist.

2. Methodik

Die Autoren entwickelten einen systematischen Rahmen, um den Einfluss von Designentscheidungen zu quantifizieren:

Datenerstellung (Meta-Analyse):
- Es wurde eine Datenbank von 92 Open-Source-Pretrained-Modellen erstellt (Größenbereich: 11M bis 110B Parameter, Zeitraum 2019–2024).
- Nur reine Decoder-only-Modelle ohne Fine-Tuning wurden berücksichtigt, um Verzerrungen durch nachgelagerte Anpassungen zu vermeiden.
- Feature-Extraktion: Für jedes Modell wurden drei Kategorien von Merkmalen dokumentiert:
  1. Architektur: Parameteranzahl, Embedding-Dimension, Layer-Norm-Typ, Positional Embeddings (z. B. RoPE, ALiBi), Attention-Varianten (GQA, MQA), Block-Typen.
  2. Datenzusammensetzung: Prozentuale Verteilung von Trainingsdaten (Web, Code, Bücher, akademisch, Referenz, etc.).
  3. Generierte Merkmale (Proxy): Da viele Modelle keine vollständigen Trainingskorpora offenlegen, generierten die Autoren 5.000–10.000 Texte pro Modell (ohne Kontext) und klassifizierten diese mittels eines LM-basierten Klassifikators. Dies diente als Proxy für die tatsächliche Trainingsdatenverteilung (z. B. Anteil von Web-Texten oder Frage-Wörtern).
Vorhersagemodellierung:
- Anstatt traditioneller Potenzgesetze wurden XGBoost-Regressoren trainiert, um die Leistung auf 12 verschiedenen Benchmarks (z. B. MMLU, GSM8K, HumanEval, TruthfulQA) vorherzusagen.
- Vergleichsmodelle:
  1. Baseline: Median der Trainingsdaten.
  2. Log-Linear: Einfache Funktion aus Parametern und Tokens.
  3. Scaling Laws: Nur Parameter und Tokens (als Features).
  4. All Features: Alle oben genannten Architektur- und Datenmerkmale.
- Feature Importance: Mittels SHAP-Werten (Shapley Additive Explanations) wurde analysiert, welche Merkmale die Vorhersage am stärksten beeinflussen.
Validierung:
- Um Korrelationen von Kausalität zu trennen, führten die Autoren confirmatory pretraining runs durch. Sie trainierten 460M-Parameter-Modelle auf dem Dolma-Dataset mit variierenden Datenmischungen (z. B. Code-Anteil, Web-Anteil), um die aus der Meta-Analyse abgeleiteten Hypothesen experimentell zu testen.

3. Wichtige Ergebnisse

Überlegenheit von „All Features":
- Die Vorhersagemodelle, die zusätzliche Features (Architektur + Daten) nutzten, schnitten auf allen 12 Benchmarks signifikant besser ab als Modelle, die nur auf Skalierung basierten.
- Die relative Verbesserung der Vorhersagegenauigkeit (Reduktion des mittleren absoluten Fehlers, MAE) lag zwischen 3 % und 28 %.
- Besonders starke Verbesserungen wurden bei Aufgaben beobachtet, die stark von der Datenart abhängen (z. B. Lambada: +28 %, HumanEval: +15 %).
Einfluss der Datenzusammensetzung:
- Code-Anteil: Es wurde ein nicht-linearer Effekt festgestellt. Ein Code-Anteil von 15–25 % im Pretraining optimiert die Balance zwischen Code-Fähigkeiten (HumanEval) und natürlichsprachlichem Reasoning. Ein zu hoher Code-Anteil (>25 %) verschlechtert die Leistung auf NLI-Aufgaben (Natural Language Inference) wie Winogrande oder Hellaswag.
- Web-Daten: Ein höherer Anteil an Web-Daten korreliert negativ mit der Faktenhaltigkeit (Truthfulness) auf dem TruthfulQA-Benchmark.
- Akademische/Referenz-Daten: Ein höherer Anteil an akademischen oder referenzartigen Daten korreliert positiv mit Aufgaben wie ARC Challenge und Winogrande.
Architektonische Entscheidungen:
- Während Datenmerkmale und Skalierung die dominierenden Faktoren sind, haben auch architektonische Details (z. B. Typ der Layer Normalization, Positional Embeddings) einen messbaren, wenn auch geringeren Einfluss auf die Leistung.
- Generierte Merkmale (z. B. Häufigkeit von Frage-Wörtern) erwiesen sich als gute Indikatoren für die Leistung, da sie Verzerrungen im Trainingsdatensatz widerspiegeln.
Validierung durch Experimente:
- Die kontrollierten Pretraining-Experimente bestätigten die Meta-Analyse-Ergebnisse weitgehend: Modelle mit einem Code-Anteil von ca. 20–25 % zeigten die beste Balance, und ein höherer Web-Anteil führte zu einer geringeren Genauigkeit bei TruthfulQA.

4. Hauptbeiträge

Umfassende Datenbank: Erstellung einer der größten öffentlich zugänglichen Datenbanken zu Designentscheidungen von 92 Open-Weight-Modellen, die Architektur, Datenmix und generierte Merkmale verknüpft.
Erweiterung der Scaling Laws: Demonstration, dass Skalierungsgesetze unvollständig sind und durch die Einbeziehung von Daten- und Architektur-Features die Vorhersagegenauigkeit für downstream-Aufgaben signifikant gesteigert werden kann.
Quantifizierung von Trade-offs: Präzise Bestimmung des optimalen Verhältnisses von Code zu natürlichem Sprachdaten (15–25 %) und Aufdeckung negativer Korrelationen zwischen Web-Daten und Faktenwissen.
Methodischer Ansatz: Nutzung von Generierungen als Proxy für fehlende Trainingsdaten-Metadaten, was eine Analyse auch bei Modellen ohne vollständige Dokumentation ermöglicht.

5. Bedeutung und Ausblick

Das Paper liefert einen wichtigen Baustein für das Verständnis von LLM-Entwicklung, indem es zeigt, dass Qualität und Zusammensetzung der Daten sowie architektonische Nuancen genauso kritisch sind wie die reine Größe des Modells.

Für Entwickler: Die Ergebnisse bieten eine praktische Leitlinie für das Design von Pretraining-Datensätzen (z. B. Vermeidung von zu viel Web-Daten für faktenbasierte Aufgaben, Optimierung des Code-Anteils).
Für die Forschung: Es etabliert einen Rahmen für systematischere Untersuchungen, die über reine Skalierungsexperimente hinausgehen.
Limitationen: Die Studie ist primär beobachtend (korrelativ), obwohl sie durch kontrollierte Experimente validiert wurde. Zudem konzentriert sie sich auf dichte Transformer-Architekturen und englischsprachige Modelle; MoE-Modelle (Mixture of Experts) und multilinguale Aspekte wurden ausgeschlossen.

Zusammenfassend verschiebt das Paper den Fokus von der Frage „Wie groß muss das Modell sein?" hin zu „Wie sollte das Modell und sein Trainingsdatensatz gestaltet sein, um spezifische Fähigkeiten zu maximieren?".

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

1. Das Problem: Der riesige, aber langweilige Kuchen

2. Die neue Entdeckung: Es kommt auf die Zutaten an

3. Die Vorhersage: Ein Kristallkugel-Test

4. Was bedeutet das für uns?

Zusammenfassung in einem Satz:

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics