Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Deze studie analyseert 92 open-source taalmodellen en toont aan dat het meenemen van ontwerpfactoren zoals data-samenstelling en architecturale keuzes, naast modelgrootte, de voorspelling van downstream-prestaties aanzienlijk verbetert en inzicht biedt in hoe specifieke ontwerpbeslissingen de eindcapaciteiten vormen.

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok bent die de perfecte pizza wil bakken. Tot nu toe dacht iedereen dat het geheim van een geweldige pizza alleen lag in twee dingen: hoe groot de oven is (het aantal parameters) en hoe lang je de pizza erin laat (hoeveel data je gebruikt).

Deze wetenschap heet "Scaling Laws" (Schaalwetten). De logica was simpel: een grotere oven + meer tijd = betere pizza.

Maar in dit nieuwe onderzoek, getiteld "Niet-Alleen-Schaalwetten", zeggen de onderzoekers van de Carnegie Mellon Universiteit: "Wacht even, dat is niet het hele verhaal."

Ze hebben gekeken naar 92 verschillende "recepten" (AI-modellen) die door de wereld zijn gemaakt. Wat ze ontdekten, is dat de samenstelling van de ingrediënten en de specifieke techniek van de kok minstens zo belangrijk zijn als de grootte van de oven.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het is niet alleen de grootte van de bakkerij

Stel je hebt twee bakkers. Bakker A heeft een gigantische fabriek en bakt met 100 ton meel. Bakker B heeft een kleine keuken en gebruikt maar 10 ton meel.
Volgens de oude regels zou Bakker A altijd winnen. Maar in dit onderzoek zagen ze dat Bakker B soms een veel lekkerdere pizza maakt. Waarom? Omdat Bakker B heel slimme keuzes heeft gemaakt met zijn ingrediënten.

De onderzoekers hebben een nieuwe "voorspeller" gebouwd. In plaats van alleen te kijken naar de grootte van de oven, kijken ze nu ook naar:

  • Wat zit er in de pizza? (Is het veel code, veel boeken, of veel internetpraat?)
  • Hoe is de pizza gemaakt? (Gebruikt de bakker een speciale deegmachine of een gewone mixer?)

Met deze extra informatie konden ze veel beter voorspellen hoe goed een AI zou presteren op taken zoals wiskunde, logisch redeneren of het schrijven van computercode. Ze verbeterden hun voorspellingen met wel 3% tot 28%. Dat is als van "goed" naar "uitmuntend" springen.

2. De "Code-Code" balans (De peper en zout)

Een van de coolste ontdekkingen gaat over computercode in de training.
Stel je voor dat je een student wilt leren redeneren. Je geeft hem een boek met wiskundige sommen (taal) en een boek met computercode.

  • Te weinig code: De student wordt niet slim genoeg in logisch denken.
  • Te veel code: De student wordt een robot die alleen maar code schrijft en vergeet hoe hij een normaal gesprek moet voeren.

De onderzoekers vonden het gouden punt: Als je ongeveer 15% tot 25% code toevoegt aan de training, wordt de AI zowel slim in programmeren als in het begrijpen van menselijke taal. Meer dan dat? Dan wordt hij juist minder goed in het begrijpen van mensen.

3. Het "Internet-Gezondheidsrisico" (De vieze keuken)

Er is nog een ander belangrijk inzicht: Waar komt het meel vandaan?
Als je AI veel leest van het openbare internet (blogs, forums, nieuws), lijkt het alsof de AI meer gaat liegen of onzin gaat verkopen.

  • Analogie: Stel je voor dat je een kind opvoedt. Als je het kind alleen maar laat spelen in een vuile, rommelige tuin (het open internet), leert het kind misschien slechte gewoontes of leugens.
  • De studie toont aan dat hoe meer "web-data" (internetpraat) een AI heeft gelezen, hoe minder betrouwbaar (waarheidsgetrouw) hij wordt. Als je juist meer "boeken" of "schoolboeken" gebruikt, wordt de AI eerlijker.

4. De "Geheime Smaakmaker" (De architectuur)

Soms maakt het uit hoe je de oven bouwt.

  • Gebruik je een speciale deegroller (een bepaald type "Layer Normalization")?
  • Gebruik je een andere manier om de tijd te tellen (Positieve Encoding)?
    De onderzoekers vonden dat deze technische details, hoewel ze minder invloed hebben dan de ingrediënten, wel degelijk kunnen zorgen voor een verschil tussen een "oké" pizza en een "sterrenrestaurant" pizza.

Wat betekent dit voor de toekomst?

Vroeger dachten we: "Als we maar genoeg geld hebben om een gigantisch model te bouwen, is het probleem opgelost."
Dit onderzoek zegt: "Nee, je moet ook slim zijn."

Het is alsof je niet alleen een grotere auto bouwt, maar ook kijkt naar de kwaliteit van het benzine en de vaardigheid van de bestuurder. Door te kijken naar wat er in de AI zit en hoe hij is gebouwd, kunnen ontwikkelaars in de toekomst:

  1. Kleinere, slimmere modellen maken (die net zo goed zijn als de grote, maar goedkoper).
  2. Beter voorspellen of een nieuw model goed zal werken, voordat ze het zelfs maar hebben getest.
  3. Betere AI's bouwen die minder liegen en beter kunnen redeneren, door simpelweg de "recepten" aan te passen.

Kortom: Het is niet alleen een kwestie van "groter is beter". Het gaat om "slimmer is beter". De toekomst van AI ligt niet in het bouwen van nog grotere ovens, maar in het vinden van het perfecte recept.