Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een slimme, snelle en goedkope AI bouwt: De "Gouden Tussenweg" voor Taalmodellen

Stel je voor dat je een enorme bibliotheek wilt bouwen die alles weet. De afgelopen jaren hebben wetenschappers ontdekt dat de enige manier om deze bibliotheek slimmer te maken, is door meer boeken (data) en meer planken (parameters) toe te voegen. Dit heet "scaling laws": hoe groter, hoe beter.

Maar er is een groot probleem: deze super-bibliotheken zijn zo groot dat ze extreem traag en duur zijn om te raadplegen. Het is alsof je een vrachtwagen vol boeken gebruikt om één vraag te beantwoorden. Het kost te veel brandstof (rekenkracht) en tijd.

De auteurs van dit paper (uit 2026) zeggen: "Wacht even, we hoeven niet alleen maar groter te bouwen. We kunnen het ook slimmer inrichten."

Hier is hun oplossing, vertaald naar simpele taal:

1. Het Probleem: De "Zware" Bibliotheek

Tot nu toe hebben we vooral gekeken naar hoe we modellen groter maken. Maar als je een model groter maakt, wordt het niet alleen slimmer, maar ook traag.

Vergelijking: Stel je een chef-kok voor die een heel groot restaurant runt. Als je alleen maar meer koks (parameters) huurt, kun je meer gerechten maken, maar de keuken raakt in de war en het duurt langer voordat het eten op tafel staat (inferentie).

2. De Oplossing: De "Architectuur" Herschikken

De onderzoekers kijken niet naar hoeveel koks je hebt, maar naar hoe de keuken is ingericht. Ze hebben drie belangrijke knoppen ontdekt om te draaien:

De "Gedachtenkracht" (Hidden Size): Hoe breed is het brein van de kok?
De "Verhouding" (MLP-to-Attention Ratio): Hoeveel tijd besteedt de kok aan het lezen van de vraag (Attention) versus het bereiden van het antwoord (MLP)?
De "Groepswerking" (GQA): In plaats dat elke kok zijn eigen notities maakt, delen ze notities. Dit bespaart ruimte en tijd.

De grote ontdekking:
Ze hebben ontdekt dat je niet altijd de "dikste" kok nodig hebt. Soms is een slimmer ingerichte keuken met een andere verhouding tussen lezen en bereiden veel sneller en toch net zo slim.

3. De "Conditieregel" (De Magische Formule)

Vroeger hadden ze een formule die zei: "Als je X boeken en Y planken hebt, krijg je Z kwaliteit." Maar die formule negeerde de inrichting van de bibliotheek.

De onderzoekers hebben een nieuwe, slimme formule bedacht. Deze formule zegt:
"Als je een bepaald budget hebt, en je wilt dat het antwoord snel komt, dan moet je de planken en boeken op deze specifieke manier verdelen."

Ze noemen dit een voorwaardelijke schaalwet. Het is als een GPS die niet alleen de snelste route zoekt, maar ook rekening houdt met je auto's brandverbruik.

4. Het Experiment: De "Proefkeuken"

Om dit te bewijzen, hebben ze niet één gigantisch model getraind (dat zou te duur zijn). In plaats daarvan hebben ze:

200+ kleine modellen getraind (van heel klein tot middelgroot).
Elke keer de "keuken" een beetje anders ingericht (meer planken hier, minder daar, andere groepen).
Gekeken welke inrichting het snelst was en het beste antwoord gaf.

Het resultaat:
Ze hebben een "blauwdruk" gevonden voor een perfect model. Toen ze deze blauwdruk toepasten op een groot model (3 miljard parameters), gebeurde er iets wonderlijks:

Het model was 2,1% slimmer dan de huidige standaardmodellen (zoals LLaMA-3.2).
Maar het was vooral 42% sneller in het geven van antwoorden!

5. Waarom is dit belangrijk?

Stel je voor dat je een app gebruikt die AI bevat.

Vroeger: Om de app snel te houden, moesten we een "dommer" model gebruiken. Om het slimmer te maken, werd de app traag en duur.
Nu: Dankzij deze nieuwe blauwdruk kunnen we een model hebben dat slimmer én sneller is.

Conclusie in één zin:
De onderzoekers hebben bewezen dat je niet alleen maar groter hoeft te bouwen om slimmer te worden; als je de binnenkant van het model slim herschikt, krijg je een AI die sneller reageert, minder energie verbruikt en betere antwoorden geeft. Het is de overstap van "groter is beter" naar "slimmer is beter".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel schaalwetten (scaling laws) hebben aangetoond dat het vergroten van het aantal parameters en trainingsdata de prestaties van Large Language Models (LLM's) verbetert, vormt de inference-kost (de kosten en snelheid bij het gebruik van het model) een steeds dringender probleem. Bestaande schaalwetten, zoals die van Chinchilla, focussen uitsluitend op de optimalisatie van het trainingsverlies onder een vast rekenbudget. Ze negeren echter de praktische realiteit dat inference de dominante kostenpost is bij het inzetten van modellen in de echte wereld.

Er is een gebrek aan inzicht in de afweging tussen modelnauwkeurigheid en inference-efficiëntie. Bestaande pogingen om dit op te lossen hebben beperkingen:

Sommige benaderingen vereisen schattingen van de totale levensduur van tokens, wat onpraktisch is.
Anderen kijken alleen naar het aspect ratio (hidden size / aantal lagen), wat onvoldoende is omdat andere architecturale factoren (zoals de verdeling tussen MLP en Attention, en Grouped-Query Attention) een grote invloed hebben op de doorvoersnelheid.

Methodologie

De auteurs introduceren een nieuwe aanpak die architecturale details integreert in schaalwetten om modellen te vinden die zowel accuraat als inference-efficiënt zijn.

1. Architecturale Variatie en Ablatie:
De studie fixeert het aantal lagen en varieert systematisch drie kernarchitecturale factoren:

Hidden size ( $d_{model}$ ): De grootte van de verborgen vector.
MLP-to-Attention ratio ( $r_{mlp/attn}$ ): De verdeling van parameters tussen de Feed-Forward (MLP) lagen en de Attention-lagen.
Grouped-Query Attention (GQA): Een techniek om de KV-cache te verkleinen en doorvoersnelheid te verhogen.

Er zijn meer dan 200 modellen getraind, variërend van 80M tot 3B parameters, met trainingsdata tot 100B tokens. Dit omvatte ablatiestudies om te bepalen hoe deze factoren de inference-doorvoersnelheid (tokens/second) en het trainingsverlies beïnvloeden.

2. Conditionele Schaalwet (Conditional Scaling Law):
De auteurs bouwen voort op de Chinchilla-schaalwet ( $L(N, D)$ ) maar voegen een architecturale component toe. Omdat het moeilijk is om één universele wet te vinden die alle configuraties dekt, stellen ze een tweestaps conditionele aanpak voor:

Stap 1: Bepaal de optimale basisverlies $L_{opt}(N, D)$ via de klassieke Chinchilla-wet voor een gegeven aantal parameters ( $N$ ) en tokens ( $D$ ).
Stap 2: Kalibreer het verlies van specifieke architecturale varianten ( $L(d/\sqrt{N}, r | N, D)$ ) ten opzichte van dit optimum.

De auteurs gebruiken een multiplicatieve kalibratie waarbij het verlies wordt gemodelleerd als een product van functies die de U-vormige relaties van de hidden size en de MLP-to-Attention ratio met het verlies beschrijven:
$L(d/\sqrt{N}, r | N, D) = f(d/\sqrt{N}) \cdot g(r) \cdot L_{opt}(N, D)$
Hierbij vertonen zowel de hidden size als de ratio een U-vormige relatie met het verlies (te klein of te groot is suboptimaal).

3. Zoekframework voor Optimalisatie:
Met deze wet kunnen ze een optimalisatieprobleem oplossen:

Doel: Maximaliseer de inference-efficiëntie ($IN(P)$).
Beperking: Het trainingsverlies mag niet hoger zijn dan een bepaalde drempel ( $L_t$ ).
Strategie: Eerst wordt de optimale $d_{model}$ en $r_{mlp/attn}$ gevonden via de schaalwet. Vervolgens wordt er lokaal gezocht naar de beste GQA-configuratie (aangezien GQA een discrete variabele is met een niet-gladde relatie tot het verlies).

Belangrijkste Resultaten

1. Voorspellende Kracht:
De conditionele schaalwet bleek zeer accuraat in het voorspellen van het trainingsverlies van grotere modellen op basis van data van kleinere modellen. De correlatie tussen voorspelde en daadwerkelijke loss was hoog (Spearman > 0.74) en de MSE zeer laag.

2. Geoptimaliseerde Modellen (Panda en Surefire):
De auteurs trainden nieuwe modellen op basis van de gevonden optimale architecturen:

Panda-1B en Panda-3B: Modellen die zijn getraind op de architectuur die het laagste verlies voorspelt.
- Resultaat: Panda-1B presteerde 2,1% beter op downstream-taken dan LLaMA-3.2-1B. Panda-3B was 0,6% beter dan LLaMA-3.2-3B.
Surefire-1B en Surefire-3B: Modellen die zijn geoptimaliseerd voor maximale inference-efficiëntie binnen een acceptabel verliesbereik.
- Resultaat: Deze modellen behaalden tot 42% hogere inference-doorvoersnelheid (tokens/s) vergeleken met de LLaMA-3.2-baselines, terwijl ze tegelijkertijd betere of vergelijkbare nauwkeurigheid behielden.

3. Architecturale Inzichten:

Hidden Size: Een grotere hidden size (met minder attention heads) verbetert de doorvoersnelheid door de KV-cache te verkleinen en de FLOPs te reduceren.
MLP-to-Attention Ratio: Er bestaat een optimaal punt (vaak rond $r \approx 1.0 - 1.5$ voor deze schalen) waar het verlies het laagst is. Bestaande modellen zoals LLaMA-3.2 hebben vaak een veel hogere ratio (bijv. 4.8), wat suboptimaal is voor zowel efficiëntie als prestatie in deze context.
GQA: Een hoger GQA-waarde verbetert consistent de doorvoersnelheid zonder de nauwkeurigheid significant te schaden, mits de andere parameters goed zijn ingesteld.

Bijdrage en Significantie

Deze paper levert een cruciale bijdrage aan het veld van LLM-ontwikkeling door:

Een nieuwe paradigmaverschuiving: Het verschuift de focus van puur "groter is beter" naar "slimmer architectureren". Het toont aan dat je binnen een vast parameterbudget (bijv. 3B parameters) de prestaties en efficiëntie drastisch kunt verbeteren door de interne verdeling van parameters aan te passen.
Praktische toepasbaarheid: De voorgestelde zoekframework en conditionele schaalwet bieden een reproduceerbare methode voor onderzoekers en bedrijven om inference-efficiënte modellen te ontwerpen zonder de kosten van het trainen van duizenden varianten.
Empirische validatie: Met training van meer dan 200 modellen en validatie tot 3B parameters, biedt het sterke empirische bewijzen dat de traditionele "aspect ratio" benadering onvoldoende is en dat de verdeling tussen MLP en Attention kritiek is.
Kostenefficiëntie: Door tot 42% hogere doorvoersnelheid te bereiken, kan deze aanpak de operationele kosten van het inzetten van LLM's aanzienlijk verlagen, wat essentieel is voor schaalbare AI-toepassingen.

Kortom, de paper bewijst dat het combineren van schaalwetten met gedetailleerde architecturale kennis leidt tot modellen die niet alleen slimmer zijn, maar ook veel goedkoper en sneller te draaien zijn.

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

1. Het Probleem: De "Zware" Bibliotheek

2. De Oplossing: De "Architectuur" Herschikken

3. De "Conditieregel" (De Magische Formule)

4. Het Experiment: De "Proefkeuken"

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdrage en Significantie

Meer zoals dit

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback