Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Diese Studie zeigt durch eine Meta-Analyse von 92 Open-Source-Modellen, dass die Vorhersagekraft für die downstream-Leistung von Sprachmodellen um 3–28 % gesteigert werden kann, wenn neben Größe und Trainingsdaten auch spezifische Designentscheidungen wie die Datenzusammensetzung und Architekturmerkmale berücksichtigt werden.

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest den perfekten Kuchen backen. Bisher dachten die meisten Bäcker (also die Entwickler von KI-Sprachmodellen), dass der einzige Geheimtipp für einen tollen Kuchen die Größe des Ofens und die Menge an Zutaten ist.

Die alte Regel lautete: „Je größer der Ofen (mehr Parameter) und je mehr Mehl und Zucker (mehr Trainingsdaten) du reinwirfst, desto besser schmeckt der Kuchen." Das nennt man „Scaling Laws" (Skalierungsgesetze).

Aber in dieser neuen Studie haben die Forscher von der Carnegie Mellon University etwas Spannendes entdeckt: Nur die Größe reicht nicht aus!

Hier ist die einfache Erklärung der Forschung, gespickt mit ein paar Analogien:

1. Das Problem: Der riesige, aber langweilige Kuchen

Stell dir vor, du hast einen riesigen Ofen und wirfst eine Billion Stückchen „das" (das deutsche Wort für „the") hinein. Selbst wenn dein Ofen riesig ist, wird der Kuchen nicht lecker. Er wird einfach nur langweilig.

Die Forscher haben 92 verschiedene KI-Modelle untersucht – von kleinen, handlichen Modellen bis hin zu riesigen Giganten. Sie stellten fest: Manchmal schmeckt ein kleinerer Kuchen mit speziellen Zutaten viel besser als ein riesiger Kuchen mit billigen Zutaten.

2. Die neue Entdeckung: Es kommt auf die Zutaten an

Die Forscher haben eine riesige Datenbank erstellt, in der sie nicht nur die Größe der Modelle notiert haben, sondern auch die Rezeptur:

  • Die Architektur: Wie ist der Ofen gebaut? (Ist er modern oder veraltet?)
  • Die Daten-Mischung: Was genau wurde hineingeworfen?

Das Ergebnis ist wie eine Kochshow:

  • Code ist der Gewürz-Booster: Wenn man dem Modell etwas Programmcode (wie Python oder JavaScript) beibringt, wird es besser im logischen Denken und im Lösen von Rätseln. Aber Vorsicht! Zu viel Code macht den Kuchen für normale Gespräche ungenießbar. Der „Sweet Spot" liegt bei etwa 15–25 % Code. Das ist wie eine Prise Salz – zu wenig, und es schmeckt fade; zu viel, und es ist ungenießbar.
  • Das Internet ist der „Fake-News"-Filter: Modelle, die zu viel aus dem allgemeinen Internet (Webseiten, Foren, Blogs) gelernt haben, neigen dazu, Unsinn zu erzählen oder Lügen zu glauben. Es ist, als würde man jemandem nur Boulevardzeitungen geben – er wird zwar viel wissen, aber oft falsch liegen.
  • Bücher und Lehrbücher sind die Basis: Für echtes Wissen und Fakten sind klassische Bücher und akademische Texte viel besser als das wilde Internet.

3. Die Vorhersage: Ein Kristallkugel-Test

Früher sagten Forscher die Leistung einer KI nur basierend auf ihrer Größe voraus (wie bei einem Sportler: Je größer, desto schneller).
Diese Forscher haben nun einen neuen „Kristallkugel"-Test entwickelt. Sie haben einen Computer-Algorithmus trainiert, der nicht nur auf die Größe schaut, sondern auf das gesamte Rezept.

Das Ergebnis: Wenn man die Zutatenliste (Daten-Mischung) und die Ofen-Bauart (Architektur) mit einbezieht, kann man vorhersagen, wie gut eine KI sein wird, 3 % bis 28 % genauer als wenn man nur auf die Größe schaut.

4. Was bedeutet das für uns?

Stell dir vor, du bist ein Investor, der in KI-Startups investiert.

  • Die alte Methode: „Ich investiere nur in die Firma, die den größten Ofen hat."
  • Die neue Methode: „Ich schaue mir an, welche Firma die besten Zutaten mischt und den modernsten Ofen baut."

Die Studie zeigt, dass man nicht unbedingt den größten und teuersten Ofen braucht, um den besten Kuchen zu backen. Man braucht ein durchdachtes Rezept.

Zusammenfassung in einem Satz:

Es reicht nicht, einfach nur mehr Daten und größere Modelle zu haben; der Mix aus den richtigen Daten (wie Code oder Bücher) und die Art und Weise, wie das Modell gebaut ist, entscheiden darüber, ob die KI schlau und wahrheitsgetreu ist oder nur groß und dumm.

Die Forscher hoffen, dass diese Erkenntnisse helfen, in Zukunft bessere, effizientere und ehrlichere KIs zu bauen, ohne jedes Mal Billionen von Dollar in riesige Rechenzentren zu stecken.