Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Dit paper introduceert CAMEL, een rekenkracht-efficiënte methode die een capaciteitsbewuste mengwet en een voorspellingswet voor benchmarkprestaties gebruikt om de data-mengsels voor grote taalmodellen te optimaliseren, wat leidt tot een halvering van de optimalisatiekosten en een verbetering van de downstream-prestaties.

Jingwei Li, Xinran Gu, Jingzhao Zhang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente robot wilt bouwen. Deze robot moet alles kunnen: wiskunde oplossen, verhalen schrijven, coderen en zelfs in het Chinees praten. Om dit te leren, moet je hem voeden met enorme hoeveelheden data. Maar hier zit de klem: je hebt niet één soort "voedsel" nodig, maar een specifieke recept (een mengsel) van verschillende soorten data.

Als je te veel wiskundige oefeningen in het mengsel stopt, wordt de robot een wiskundig genie maar kan hij geen verhaaltjes vertellen. Stop je te veel nieuwsartikelen in, dan wordt hij slim in feiten maar slecht in logisch redeneren.

Het probleem voor wetenschappers is: Hoe vind je het perfecte recept?

Normaal gesproken moeten ze duizenden verschillende recepten uitproberen op hun enorme robot. Dit is extreem duur, langzaam en kost veel energie (rekenkracht). Het is alsof je duizenden verschillende soepen moet koken om te ontdekken welke het lekkerst is, terwijl je maar één grote pot hebt.

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd CAMEL. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Recept-Schaalwet" (De CAMEL-methode)

Stel je voor dat je een klein proefkonijntje hebt (een klein model) en een enorme olifant (het grote model).

  • Het oude probleem: Als je het beste voedselrecept voor het konijntje vindt, werkt dat vaak niet voor de olifant. De olifant heeft andere behoeften dan het konijntje.
  • De nieuwe oplossing (CAMEL): De auteurs hebben een wiskundige formule bedacht die begrijpt hoe het "grootte-effect" werkt. Ze ontdekten dat de relatie tussen hoeveelheid data en modelgrootte niet lineair is.
    • Analogie: Als je een klein kind voedt, heb je veel eiwitten nodig voor groei. Maar als je een volwassene voedt, moet je de verhouding van groente en fruit aanpassen. CAMEL is als een slimme kok die weet: "Ah, voor een klein model moet ik 30% wiskunde gebruiken, maar voor een gigantisch model moet ik 50% algemene kennis toevoegen."

2. De "Proefsmaker" (Van Verlies naar Prestatie)

In de wereld van AI kijken wetenschappers vaak naar een "verlies" (loss) getal. Dit is een cijfer dat aangeeft hoe fouten de robot maakt. Maar een laag foutengetal betekent niet altijd dat de robot goed presteert op echte tests (zoals het oplossen van een raadsel).

  • De oplossing: Ze hebben een tweede formule bedacht die vertaalt: "Dit lage foutengetal betekent dat de robot waarschijnlijk 90% goed scoort op de wiskundetoets."
  • Analogie: Het is alsof je niet alleen kijkt naar hoe schoon de vloer is (verlies), maar direct voorspelt hoe tevreden de gasten zullen zijn bij het feest (benchmark score). Hierdoor hoeven ze niet elke keer de hele robot te testen om te zien of het recept werkt.

3. De "Uurglas-strategie" (Slimme Proefneming)

Je hebt een beperkt budget aan energie om te experimenteren. Waar moet je die energie besteden?

  • De oude manier: Je test evenveel recepten op kleine, middelgrote en grote modellen. Dit is als proberen om een uur te koken door elke minuut een beetje te proeven, ongeacht of de pan nu heet of koud is.
  • De nieuwe manier (Uurglas): De auteurs ontdekten dat je de meeste energie moet steken in de kleinste en de grootste modellen, en minder in de middelgrote.
  • Analogie: Stel je voor dat je een brug bouwt. Je test de sterkte op een heel klein model (een speelgoedbrug) en op het echte, enorme model. De modellen daar tussenin gedragen zich vaak gewoon als een mix van die twee. Door te focussen op de uitersten (het uurglas), kun je met minder proefneming een veel nauwkeurigere voorspelling doen.

Het Resultaat

Met deze methode (CAMEL) hebben ze:

  1. 50% minder rekenkracht nodig dan eerdere methoden om het perfecte recept te vinden.
  2. Beter presterende robots gevonden (tot 3% beter op tests) dan met de oude, dure methoden.
  3. Het bewezen dat je het beste recept voor een gigantische robot kunt vinden door eerst te kijken naar kleinere robots, mits je de juiste "schaalformules" gebruikt.

Kortom: In plaats van blindelings duizenden dure experimenten te doen, gebruiken ze slimme wiskunde en een slimme proefstrategie om het perfecte dieet voor super-intelligente robots te vinden, snel en goedkoop.