What Scales in Cross-Entropy Scaling Law?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek bouwt, vol met boeken die een computer moet leren lezen en begrijpen. In de wereld van kunstmatige intelligentie (AI) noemen we deze boeken "data" en de computer "het model".

Voor jarenlang hadden onderzoekers een heel handige vuistregel: "Hoe groter de bibliotheek en hoe slimmer de computer, hoe beter hij wordt." Ze noemden dit de "Cross-Entropy Wet". Het was als een kompas dat zeiden: "Als je je model verdubbelt, wordt de fout precies met een voorspelbaar stukje kleiner."

Maar recentelijk merkten ze iets vreemds op. Als je modellen enorm groot maakt (zoals de slimste AI's van vandaag), werkt die vuistregel niet meer goed. De AI wordt wel beter, maar niet zo snel als de wet voorspelde. Het is alsof je een auto bouwt die op kleine afstanden razendsnel gaat, maar op de lange weg ineens in de versnelling vastloopt.

De auteurs van dit paper vragen zich af: Waarom stopt die wet? Wat gaat er eigenlijk mis?

De Grote Ontdekking: Het is niet de hele AI die groeit

De auteurs zeggen: "Wacht even. De hele 'fout' (de cross-entropy) is niet wat echt schaalbaar is. Het is alsof je denkt dat een hele taart groeit, terwijl eigenlijk alleen de vulling groeit en de korst juist kleiner wordt."

Ze hebben de "fout" van de AI opgesplitst in drie verschillende onderdelen, net als een taart in drie lagen:

De Ranglijst-Layer (Error-Entropy): Dit is de belangrijkste laag. Het gaat erom: Zit het juiste antwoord in de top 10 van de suggesties van de AI? Als de AI het juiste woord op plek 1 zet, is dit laagje klein. Als hij het pas op plek 100 zet, is dit laagje groot.
- De analogie: Dit is als een student die een meerkeuzevraag beantwoordt. De belangrijkste vraag is: "Heeft hij het juiste antwoord gevonden?"
- Het nieuws: Dit is het enige deel dat echt blijft groeien en verbeteren naarmate de AI groter wordt. Het volgt de oude wet perfect.
De Zelf-Afstemming Layer (Self-Alignment): Dit gaat erom hoe goed de AI zijn eigen zekerheid matcht met de werkelijkheid.
- De analogie: Stel je voor dat de AI zegt: "Ik ben 90% zeker dat het antwoord A is." Maar in werkelijkheid is het antwoord A maar 50% waarschijnlijk. Deze laag meet dat verschil.
- Het nieuws: Deze laag verandert niet echt naarmate de AI groter wordt. Hij blijft vrijwel hetzelfde.
De Zekerheids-Layer (Confidence): Dit gaat erom hoe hard de AI schreeuwt: "IK WEET HET!"
- De analogie: Een kleine AI zegt misschien: "Misschien is het A." Een grote AI schreeuwt: "Het is absoluut A!" Zelfs als het antwoord al op de juiste plek staat, blijft deze "schreeuw" (de zekerheid) groeien.
- Het nieuws: Deze laag wordt juist groter en chaotischer naarmate de AI groter wordt.

Waarom werkt de oude wet dan niet meer?

Hier komt de creatieve analogie om de hoek kijken: De "Zure Smaak" van de Taart.

Stel je voor dat je een taart eet die bestaat uit:

90% Heerlijke Vulling (Error-Entropy): Dit wordt steeds lekkerder naarmate de taart groter is.
10% Saai Beslag (Self-Alignment & Confidence): Dit smaakt altijd hetzelfde, of wordt zelfs wat bitter als de taart heel groot wordt.

Bij kleine taarten: De vulling is 90% van de taart. Als je de taart vergroot, proef je vooral de lekker wordende vulling. De smaakverbetering is perfect voorspelbaar. De "wet" werkt!

Bij gigantische taarten: De vulling wordt nog lekkerder, maar hij neemt nu slechts 50% van de taart in beslag. De saai/bittere beslaag (de andere twee lagen) neemt nu de overhand. Omdat die beslaag niet lekkerder wordt, proef je dat de hele taart niet meer zo snel verbetert als voorheen. De wet "breekt" niet omdat de vulling stopt met groeien, maar omdat de smaak van de hele taart nu wordt bepaald door de delen die niet verbeteren.

Wat betekent dit voor de toekomst?

De auteurs zeggen: "We moeten stoppen met kijken naar de hele taart (de totale fout) en gaan kijken naar de vulling (de Error-Entropy)."

Een nieuwe kompas: Als we alleen kijken naar of de AI het juiste antwoord in de top-lijst zet (de ranglijst), dan zien we dat AI's nog steeds perfect groeien, zelfs de gigantische modellen. De wet is niet kapot, we keken alleen naar het verkeerde deel.
Beter trainen: Misschien trainen we AI's nu te veel op "hard schreeuwen" (zekerheid) in plaats van op "het juiste antwoord vinden". Als we de training aanpassen om meer te focussen op die "vulling" (de ranglijst), zouden we nog slimmere AI's kunnen bouwen.

Kort samengevat:
De AI wordt niet minder slim naarmate hij groter wordt. Het is alsof we dachten dat een auto langzamer ging omdat de wielen kleiner werden, terwijl de motor eigenlijk harder draaide dan ooit. We moeten gewoon ophouden met kijken naar de wielen (de totale fout) en gaan kijken naar de motor (de ranglijst van het juiste antwoord). Dan zien we dat de toekomst van AI nog steeds heel veelbelovend is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De cross-entropy scaling law is een empirische wet die stelt dat de cross-entropy loss (verlies) van grote taalmodellen (LLM's) voorspelbaar afneemt volgens een machtsfunctie naarmate de modelgrootte en datasetgrootte toenemen. Dit principe is fundamenteel voor het trainen en schalen van moderne LLM's.

Echter, recente bewijzen suggereren dat deze wet op zeer grote schaal faalt: de loss neemt langzamer af dan voorspeld door de machtsfunctie. Dit creëert onzekerheid over de betrouwbaarheid van het simpelweg vergroten van modellen als strategie voor verbetering. De theoretische onderbouwing is ook onduidelijk; bestaande theorieën kunnen machtsfuncties voor foutmetrieken (zoals Mean Squared Error) verklaren, maar niet direct voor cross-entropy loss. De kernvraag van dit paper is: Wat schaal er eigenlijk binnen de cross-entropy scaling law? Is het de loss zelf, of een verborgen component?

Methodologie

De auteurs introduceren een nieuwe, wiskundige decompositie van de cross-entropy loss in drie specifieke componenten, gebaseerd op een nieuw concept genaamd Rank-based Error (RBE).

Rank-based Error (RBE): In plaats van te kijken naar de absolute waarschijnlijkheidsscore van het juiste token, definieren de auteurs de RBE als de rang (positie) van het juiste token in de voorspelling van het model. Als er 4 tokens een hogere score hebben dan het juiste token, is de RBE 4.
Decompositie: De cross-entropy loss ( $L_{CE}$ ) wordt exact ontbonden in de som van drie termen:
- Error-Entropy (EE): De Shannon-entropie van de verdeling van de RBE-waarden ( $p_e$ ). Deze term meet hoe geconcentreerd de modelvoorspellingen zijn rond het juiste antwoord (d.w.z. hoe goed het model fouten vermijdt).
- Self-Alignment: De KL-divergentie tussen de RBE-verdeling ( $p_e$ ) en de genormaliseerde scoreverdeling ( $q_e$ ). Deze term meet hoe goed de model-scores overeenkomen met de rangverdeling.
- Confidence: De logaritme van de norm van de voorspellingsscores ( $C$ ). Deze term reflecteert de algehele zekerheid van het model.
De formule luidt:
$L_{CE} = \underbrace{-\sum p_e \log p_e}_{\text{Error-Entropy}} + \underbrace{\sum p_e \log \frac{p_e}{q_e}}_{\text{Self-Alignment}} - \underbrace{\log C}_{\text{Confidence}}$
Experimenteel Opzet: De auteurs hebben uitgebreide experimenten uitgevoerd op 32 modellen (van 14M tot 70B parameters) over drie datasets (Wikipedia, C4, GitHub). Ze analyseerden zowel de trainingsdynamiek als het schaalgedrag van deze componenten.

Belangrijkste Bijdragen

Novel Decompositie: De eerste wiskundige ontbinding van cross-entropy in Error-Entropy, Self-Alignment en Confidence, waarbij RBE als centrale metriek fungeert.
Identificatie van de Schaalcomponent: Het aantonen dat alleen Error-Entropy een robuuste machtsfunctie-schaling volgt. De andere twee componenten (Self-Alignment en Confidence) vertonen geen consistente schaling en blijven grotendeels invariant of vertonen ruis.
Verklaring van het "Breakdown"-fenomeen: Een theoretische en empirische verklaring waarom de cross-entropy scaling law op kleine schaal werkt maar op grote schaal faalt.

Resultaten

Error-Entropy schaling: Error-Entropy neemt af volgens een strakke machtsfunctie naarmate de modelgrootte toeneemt. De $R^2$ -waarden voor de fit van Error-Entropy zijn zelfs hoger dan die van de totale cross-entropy loss, wat aangeeft dat dit de "ware" schaalbare component is.
Invariance van andere termen: Self-Alignment en Confidence tonen geen duidelijke schalingspatronen. Self-Alignment toont zelfs een lichte stijgende trend of grote variantie, en Confidence is zeer onstabiel.
Dynamiek tijdens training:
- In de vroege fasen van training domineert Error-Entropy de loss (vaak >90% bij kleine modellen). Omdat deze term schaalbaar is, lijkt de totale loss ook perfect te schalen.
- Naarmate modellen groter worden, neemt het aandeel van Error-Entropy in de totale loss af. De niet-schaalbare componenten (Self-Alignment en Confidence) nemen een groter aandeel in.
Kwantitatieve Bevestiging: De schalingsexponent van Error-Entropy komt zeer dicht overeen met die van cross-entropy (kleine $\Delta$ ), terwijl de andere componenten grote afwijkingen vertonen.

Betekenis en Impact

De bevindingen hebben diepgaande implicaties voor de toekomst van LLM-onderzoek:

Oplossing voor het schaalpuzzel: Het paper verklaart waarom cross-entropy op grote schaal "vastloopt": het is niet dat het model stopt met leren, maar dat het aandeel van de schaalbare component (Error-Entropy) in de totale loss afneemt, waardoor de niet-schaalbare ruis overheerst.
Nieuwe Schaalwet: De auteurs introduceren de Error-Entropy Scaling Law als een nauwkeurigere beschrijving van modelgedrag dan de traditionele cross-entropy scaling law.
Trainingsoptimalisatie: Omdat Confidence en Self-Alignment niet schalen, suggereert het paper dat huidige trainingsdoelen mogelijk te veel focus leggen op het verhogen van de "zekerheid" (Confidence) in plaats van het verbeteren van de rangschikking van fouten. De auteurs stellen een nieuw trainingsdoel voor ( $L_\lambda = CE + \lambda \cdot CONF$ ) dat de Confidence-term straft om de focus terug te brengen naar Error-Entropy.
Theoretisch Inzicht: Het verbindt taalmodellen met het veld van Information-Theoretic Learning (ITL), waarbij het minimaliseren van foutentropie een fundamenteel doel is, en biedt een nieuwe lens om intelligentie en schaling te begrijpen.

Kortom, dit paper verschuift de focus van het observeren van de totale cross-entropy loss naar het analyseren van de onderliggende Error-Entropy, wat leidt tot een robuustere theoretische basis voor het schalen van toekomstige grote taalmodellen.

What Scales in Cross-Entropy Scaling Law?

De Grote Ontdekking: Het is niet de hele AI die groeit

Waarom werkt de oude wet dan niet meer?

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering