Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok bent die de perfecte pizza wil bakken. Tot nu toe dacht iedereen dat het geheim van een geweldige pizza alleen lag in twee dingen: hoe groot de oven is (het aantal parameters) en hoe lang je de pizza erin laat (hoeveel data je gebruikt).

Deze wetenschap heet "Scaling Laws" (Schaalwetten). De logica was simpel: een grotere oven + meer tijd = betere pizza.

Maar in dit nieuwe onderzoek, getiteld "Niet-Alleen-Schaalwetten", zeggen de onderzoekers van de Carnegie Mellon Universiteit: "Wacht even, dat is niet het hele verhaal."

Ze hebben gekeken naar 92 verschillende "recepten" (AI-modellen) die door de wereld zijn gemaakt. Wat ze ontdekten, is dat de samenstelling van de ingrediënten en de specifieke techniek van de kok minstens zo belangrijk zijn als de grootte van de oven.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het is niet alleen de grootte van de bakkerij

Stel je hebt twee bakkers. Bakker A heeft een gigantische fabriek en bakt met 100 ton meel. Bakker B heeft een kleine keuken en gebruikt maar 10 ton meel.
Volgens de oude regels zou Bakker A altijd winnen. Maar in dit onderzoek zagen ze dat Bakker B soms een veel lekkerdere pizza maakt. Waarom? Omdat Bakker B heel slimme keuzes heeft gemaakt met zijn ingrediënten.

De onderzoekers hebben een nieuwe "voorspeller" gebouwd. In plaats van alleen te kijken naar de grootte van de oven, kijken ze nu ook naar:

Wat zit er in de pizza? (Is het veel code, veel boeken, of veel internetpraat?)
Hoe is de pizza gemaakt? (Gebruikt de bakker een speciale deegmachine of een gewone mixer?)

Met deze extra informatie konden ze veel beter voorspellen hoe goed een AI zou presteren op taken zoals wiskunde, logisch redeneren of het schrijven van computercode. Ze verbeterden hun voorspellingen met wel 3% tot 28%. Dat is als van "goed" naar "uitmuntend" springen.

2. De "Code-Code" balans (De peper en zout)

Een van de coolste ontdekkingen gaat over computercode in de training.
Stel je voor dat je een student wilt leren redeneren. Je geeft hem een boek met wiskundige sommen (taal) en een boek met computercode.

Te weinig code: De student wordt niet slim genoeg in logisch denken.
Te veel code: De student wordt een robot die alleen maar code schrijft en vergeet hoe hij een normaal gesprek moet voeren.

De onderzoekers vonden het gouden punt: Als je ongeveer 15% tot 25% code toevoegt aan de training, wordt de AI zowel slim in programmeren als in het begrijpen van menselijke taal. Meer dan dat? Dan wordt hij juist minder goed in het begrijpen van mensen.

3. Het "Internet-Gezondheidsrisico" (De vieze keuken)

Er is nog een ander belangrijk inzicht: Waar komt het meel vandaan?
Als je AI veel leest van het openbare internet (blogs, forums, nieuws), lijkt het alsof de AI meer gaat liegen of onzin gaat verkopen.

Analogie: Stel je voor dat je een kind opvoedt. Als je het kind alleen maar laat spelen in een vuile, rommelige tuin (het open internet), leert het kind misschien slechte gewoontes of leugens.
De studie toont aan dat hoe meer "web-data" (internetpraat) een AI heeft gelezen, hoe minder betrouwbaar (waarheidsgetrouw) hij wordt. Als je juist meer "boeken" of "schoolboeken" gebruikt, wordt de AI eerlijker.

4. De "Geheime Smaakmaker" (De architectuur)

Soms maakt het uit hoe je de oven bouwt.

Gebruik je een speciale deegroller (een bepaald type "Layer Normalization")?
Gebruik je een andere manier om de tijd te tellen (Positieve Encoding)?
De onderzoekers vonden dat deze technische details, hoewel ze minder invloed hebben dan de ingrediënten, wel degelijk kunnen zorgen voor een verschil tussen een "oké" pizza en een "sterrenrestaurant" pizza.

Wat betekent dit voor de toekomst?

Vroeger dachten we: "Als we maar genoeg geld hebben om een gigantisch model te bouwen, is het probleem opgelost."
Dit onderzoek zegt: "Nee, je moet ook slim zijn."

Het is alsof je niet alleen een grotere auto bouwt, maar ook kijkt naar de kwaliteit van het benzine en de vaardigheid van de bestuurder. Door te kijken naar wat er in de AI zit en hoe hij is gebouwd, kunnen ontwikkelaars in de toekomst:

Kleinere, slimmere modellen maken (die net zo goed zijn als de grote, maar goedkoper).
Beter voorspellen of een nieuw model goed zal werken, voordat ze het zelfs maar hebben getest.
Betere AI's bouwen die minder liegen en beter kunnen redeneren, door simpelweg de "recepten" aan te passen.

Kortom: Het is niet alleen een kwestie van "groter is beter". Het gaat om "slimmer is beter". De toekomst van AI ligt niet in het bouwen van nog grotere ovens, maar in het vinden van het perfecte recept.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

De prestaties van taalkundige modellen (LLMs) worden doorgaans toegeschreven aan schaalwetten: het idee dat het verhogen van het aantal parameters ( $N$ ) en het aantal trainings-tokens ( $D$ ) lineair leidt tot betere prestaties. Echter, deze wetten zijn niet altijd voorspellend voor downstream-taken. Soms presteren kleinere modellen, getraind op zorgvuldig samengestelde data of met specifieke architecturale keuzes, beter dan grotere modellen.

De huidige uitdaging is dat bestaande schaalwetten te veel vertrouwen op slechts twee variabelen ( $N$ en $D$ ) en andere cruciale ontwerpfactoren negeren, zoals:

Data-samenstelling: De verhouding tussen code, webdata, boeken, academische teksten, etc.
Architecturale beslissingen: Type normalisatie (LayerNorm vs. RMSNorm), positie-embeddings (RoPE vs. Alibi), en aandachtmechanismen.
Task-specifieke variatie: Sommige taken vertonen "pathologische" schaalgedragingen (bijv. U-vormige schaling of inversie) die niet door eenvoudige machtswetten worden verklaard.

2. Methodologie

De auteurs hebben een systematische meta-analyse uitgevoerd om de impact van deze designkeuzes te kwantificeren.

A. Dataverzameling en Database:

Er is een database opgebouwd van 92 open-source, vooraf getrainde decoder-only modellen (grootte: 11M tot 110B parameters) uit de periode 2019-2024.
Alleen "base" modellen werden opgenomen (geen fine-tuned varianten of MoE-architecturen).
Voor elk model werden drie soorten kenmerken gedocumenteerd:
1. Architectuurkenmerken: Aantal parameters, embedding-dimensie, aantal attention-heads, type LayerNorm, positie-embeddings, etc.
2. Data-kenmerken: Totale tokens, percentage code, webdata, boeken, academische teksten, etc. (gebaseerd op documentatie).
3. Generatie-kenmerken (Proxy): Omdat volledige trainingscorpora zelden openbaar zijn, genereren de auteurs 5.000-10.000 teksten per model (zonder context) en analyseren deze met een classifier. Dit dient als proxy voor de daadwerkelijke trainingsdata-samenstelling.

B. Predictieve Modellering:

In plaats van een traditionele machtswet (power law) te gebruiken, trainden de auteurs XGBoost-regressiemodellen om de prestaties op 12 verschillende benchmarks te voorspellen.
Baselines: Ze vergeleken hun "All-Features" model met een "Scaling-Laws" model (alleen $N$ en $D$ ) en een log-lineaire baseline.
Validatie: Ze gebruikten 3-voudige kruisvalidatie en voerden gepaarde t-tests uit om de significantie van verbeteringen te bepalen.
Interpretatie: Ze gebruikten SHAP-waarden (Shapley Additive exPlanations) om te bepalen welke kenmerken het meest bijdragen aan de voorspellingen.

C. Confirmatie-experimenten:

Om causale claims te onderbouwen, trainden ze eigen modellen (460M parameters) op de Dolma-dataset met gecontroleerde variaties in data-mix (bijv. verschillende percentages code en webdata) om de meta-analyse-resultaten te valideren.

3. Belangrijkste Bijdragen en Resultaten

A. Verbeterde Voorspellingskracht:

Het opnemen van extra kenmerken (architectuur en data) leidt tot een relatieve verbetering van 3% tot 28% in de voorspellingsnauwkeurigheid (gemeten via Mean Absolute Error) ten opzichte van het gebruik van schaalwetten alleen.
De grootste verbeteringen werden gezien bij taken zoals Lambada (28% verbetering) en HumanEval (15% verbetering).
Dit bewijst dat schaalwetten onvoldoende zijn om downstream-prestaties volledig te verklaren.

B. Inzichten in Data-samenstelling:

Code-afweging: Er is een duidelijke trade-off gevonden. Een code-percentage van 15-25% in de trainingsdata optimaliseert de balans tussen code-generatie (HumanEval) en natuurlijke taalredenering (NLI-taken zoals ARC Challenge, Winogrande).
- 25% code leidt tot betere code-prestaties maar schaadt de prestaties op natuurlijke taalredenering.
Webdata en Waarheid: Er is een negatieve correlatie gevonden tussen het percentage webdata en de prestaties op TruthfulQA. Meer webdata leidt tot een lagere waarheidsgetrouwheid, waarschijnlijk door de aanwezigheid van hallucinaties en onnauwkeurige informatie op het web.
Synthetische Data: Modellen getraind op synthetische data (zoals Phi-2) genereren meer vraagwoorden, wat correleert met betere prestaties op kennisgerelateerde taken.

C. Architecturale Invloeden:

Hoewel data-samenstelling de dominante factor is, hebben ook architecturale keuzes invloed. Bijvoorbeeld, het type LayerNorm (RMSNorm vs. parametrisch) en positie-embeddings (RoPE) hebben een significant effect op specifieke taken, hoewel dit effect kleiner is dan dat van data.

D. Validatie:

De confirmatie-experimenten met 460M-parameter modellen bevestigden de trend: een optimale code-mix rond de 15-25% en een negatief effect van webdata op TruthfulQA. Dit suggereert dat de observaties uit de meta-analyse robuust zijn.

4. Betekenis en Toekomstperspectief

Wetenschappelijke Impact:

Dit werk verschuift het paradigma van "groter is beter" naar "beter ontworpen is beter". Het biedt een raamwerk om te begrijpen waarom modellen presteren, niet alleen hoe goed.
Het introduceert een praktische methode om de prestaties van modellen te voorspellen op basis van hun ontwerpkeuzes, wat ontwikkelaars helpt bij het maken van betere data-mixes en architecturale keuzes zonder kostbare, uitgebreide trainingsexperimenten.

Praktische Toepassing:

De auteurs bieden een open database en code aan, wat een waardevol hulpmiddel is voor de gemeenschap om systematisch data-documentatie te verbeteren.
Het werk suggereert dat toekomstige LLM-ontwikkeling zich moet richten op geoptimaliseerde data-mixes (bijv. specifieke percentages code) in plaats van blindelings te schalen.

Beperkingen:

De studie is observationeel; causale claims vereisen nog meer gecontroleerde experimenten.
De database is beperkt tot dichte transformer-architecturen en voornamelijk Engelstalige modellen.
Er is een risico op publicatiebias (slechte modellen worden zelden openbaar gemaakt), hoewel de auteurs corrigerende statistische methoden (PET-PEESE) hebben toegepast.

Conclusie:
De paper concludeert dat schaalwetten slechts één deel van het verhaal zijn. Door de impact van data-samenstelling en architecturale beslissingen systematisch te analyseren, kunnen we modellen ontwerpen die efficiënter leren en beter presteren op specifieke downstream-taken, zelfs met minder parameters of tokens.

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

1. Het is niet alleen de grootte van de bakkerij

2. De "Code-Code" balans (De peper en zout)

3. Het "Internet-Gezondheidsrisico" (De vieze keuken)

4. De "Geheime Smaakmaker" (De architectuur)

Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

4. Betekenis en Toekomstperspectief

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics