Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taalmodel (LLM) zoals een jong kind dat net naar school gaat. Het proces om dit kind slim te maken, bestaat uit twee grote fases: eerst leren lezen en begrijpen (pre-training), en daarna specifiek oefenen voor een examen (post-training).

Deze paper onderzoekt de beste manier om dit te doen. De onderzoekers ontdekten dat de "recepten" voor deze twee fases heel verschillend zijn, en dat je ze niet zomaar door elkaar kunt gooien.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Twee Fasen van Leren

Fase 1: Pre-training (De Brede Basis)

Wat gebeurt er? Het model leest enorme hoeveelheden boeken, artikelen en internetpagina's.
De Analogie: Stel je voor dat je een kind laat spelen in een gigantisch, volkrijk park. Het ziet alles: voetballers, schilders, muzikanten, wetenschappers. Het leert de basis van hoe de wereld werkt.
De Les: Je hebt hier een enorme, diverse hoeveelheid data nodig. Als het park te klein is of alleen maar voetballers bevat, wordt het kind niet breed ontwikkeld.

Fase 2: Post-training (De Specialisatie)
Na die brede basis moet het model leren om specifieke vragen te beantwoorden of te redeneren. Hier komen twee methoden om de hoek kijken: SFT (Supervised Fine-Tuning) en RL (Reinforcement Learning).

2. Methode A: SFT (Supervised Fine-Tuning)

Wat is het? Het model krijgt een lijst met voorbeeldvragen en de perfecte antwoorden. Het moet deze voorbeelden nabootsen.
De Analogie: Dit is als een privé-tutor die een student helpt met een lastig wiskundeprobleem.
Het Geheim van SFT:
- Kwaliteit > Hoeveelheid: Je hebt niet duizenden voorbeelden nodig. Je hebt een kleine, zeer moeilijke set voorbeelden nodig die het model net niet snapt.
- Waarom? Als je de tutor 10.000 makkelijke voorbeelden geeft, wordt de student lui en vergeet hij wat hij al wist. Als je echter 50 uitdagende voorbeelden geeft die het model net niet kan oplossen, leert het echt iets nieuws zonder zijn bestaande kennis te verstoren.
- De Valstrik: Als je te veel data gebruikt, "verwijdert" je de slimme kennis die het model tijdens de pre-training had opgedaan. Het is alsof je een chef-kok die al jaren kookt, dwingt om 10.000 keer hetzelfde simpele gerecht te maken; hij vergeet zijn creatieve vaardigheden.

3. Methode B: RL (Reinforcement Learning)

Wat is het? Het model probeert antwoorden te geven en krijgt een score (beloning of straf) aan het einde, zonder dat iemand elke stap uitlegt.
De Analogie: Dit is als leren fietsen op een helling. Je valt een paar keer, krijgt een duwtje in de rug als je goed gaat, en moet zelf uitvinden hoe je rechtop blijft.
Het Geheim van RL:
- Hoeveelheid > Kwaliteit: Hier werkt het tegenovergestelde van SFT. Je hebt enorme hoeveelheden data nodig.
- Waarom? Omdat het model zelf moet ontdekken wat goed is, moet het veel proberen. Als het model al een goede basis heeft (van de pre-training), helpt een grote hoeveelheid data om die vaardigheid te verfijnen.
- De Voorwaarde: De data mag niet te moeilijk zijn. Als het model al in de war is, helpt een enorme hoeveelheid moeilijke voorbeelden niet; het raakt dan alleen maar meer in de war.

4. De Grote Ontdekkingen (De "Aha!"-momenten)

De onderzoekers hebben drie belangrijke regels ontdekt die de wereld van AI kunnen veranderen:

De "Gouden Middelweg" voor Pre-training:
De basisdata moet in balans zijn. Als je alleen maar over voetbal leest, kun je later geen schilder worden. Een evenwichtige basis zorgt ervoor dat het model "latente vaardigheden" ontwikkelt die later pas worden ontgrendeld.
SFT is als een Scherp Mes:
Gebruik SFT met een kleine, scherpe set moeilijke voorbeelden. Het is beter om 100 moeilijke vragen te hebben die het model net niet kan oplossen, dan 10.000 makkelijke vragen. Te veel data bij SFT is actually schadelijk.
RL is als een Oefenbad:
Gebruik RL met grote hoeveelheden data. Het heeft een ruwe, onstabiele omgeving nodig om te leren, maar alleen als het model al een stevige basis heeft.

Samenvattend in één zin:

Om een AI-superster te maken, geef je hem eerst een brede, diverse basis (pre-training). Vervolgens leer je hem specifieke vaardigheden met weinig, maar zeer moeilijke voorbeelden (SFT), en verfijn je die vaardigheden met grote hoeveelheden oefenmateriaal (RL).

Als je deze regels negeert (bijvoorbeeld door te veel data te gebruiken bij SFT), maak je de AI juist dommer in plaats van slimmer.

Each language version is independently generated for its own context, not a direct translation.

Titel: Theoretische Perspectieven op Datakwaliteit en Synergetische Effecten in Pre- en Post-Training Redeneringsmodellen

Auteurs: Adel Javanmard, Baharan Mirzasoleiman, en Vahab Mirrokni (USC, UCLA, Google Research)

1. Probleemstelling

Grote Taalmodellen (LLMs) worden doorgaans getraind in twee fasen:

Pre-training: Op enorme, diverse datasets om algemene wereldkennis en taalkundige vaardigheden te verwerven.
Post-training: Via Supervised Fine-Tuning (SFT) of Reinforcement Learning (RL) om specifieke vaardigheden (zoals redeneren) te verfijnen en instructies te volgen.

Hoewel er empirische best practices zijn (bijv. pre-training vereist grote data, SFT werkt goed met kleine, hoogwaardige datasets, en RL baat bij schaal), ontbreekt er een fundamenteel theoretisch inzicht in waarom dit zo is. Specifiek is onduidelijk:

Welke eigenschappen van pre-training data latent vermogen creëren dat tijdens post-training geactiveerd kan worden?
Waarom presteert SFT beter op kleine, moeilijke datasets, terwijl grotere datasets de prestaties kunnen verslechteren?
Waarom vereist RL juist grote datasets, en hoe verschilt het optimalisatielandschap daarvan van SFT?

2. Methodologie

De auteurs ontwikkelen een theoretisch raamwerk gebaseerd op In-Context Learning (ICL) voor een lineaire regressie taak (het voorspellen van een gewichtsvector uit een reeks input-output paren).

Model Architectuur: Ze analyseren Transformers met een Lineaire Self-Attention (LSA) laag. Dit vereenvoudigt de wiskunde terwijl het de kernmechanismen van in-context leren behoudt.
Trainingsfasen:
- Pre-training: Het model leert direct in-context te voorspellen op een distributie $\Sigma_0$ .
- Post-training: Het model ondergaat ofwel SFT (met Chain-of-Thought, CoT, waarbij tussenstappen worden gesuperviseerd) of Outcome Supervision (OS, een vereenvoudigde vorm van RL waarbij alleen het eindantwoord wordt beloond).
- Test: Evaluatie op een nieuwe distributie $\Sigma = \Sigma_0 + \Delta$ , waarbij $\Delta$ een verschuiving (adaptatie) voorstelt.
Analyse: De auteurs gebruiken wiskundige analyse van de verliesfuncties (SFT en OS), gradienten, en Hessiaan-matrices in het "population regime" (oneindig veel data) en proportionele asymptotische regimes om de convergentie en stabiliteit te bestuderen.

3. Belangrijkste Bijdragen en Theoretische inzichten

Het paper levert vier kerninzichten op die de interactie tussen datakwaliteit, dataschaal en trainingsmethode verklaren:

Inzicht 1: De rol van "Moeilijke" voorbeelden in SFT

Vindt: SFT profiteert het meest van een kleine set van voorbeelden die moeilijk zijn voor het voorgetrainde model.
Reden: Deze moeilijke voorbeelden liggen in de subruimte van de adaptatie ( $\Delta$ ) waar het voorgetrainde model de minste zekerheid heeft (hoge residu-fout). Door zich te focussen op deze "gaten" in de kennis, wordt het model optimaal aangepast zonder de reeds bestaande kennis te verstoren.

Inzicht 2: De "Double Descent" en interferentie bij SFT

Vindt: Het vergroten van de SFT-dataset (meer voorbeelden $B$ of langere prompts $n$ ) kan de prestaties verslechteren als er interferentie is met de pre-training distributie.
Mechanisme: Te veel SFT-data introduceert ruis die de fijne structuur van de pre-training parameters (de "latent capabilities") wegspoelt. Dit leidt tot een U-vormige of "double descent" curve in de testfout: eerst daalt de fout, maar bij te veel data stijgt deze weer door overfitting op de nieuwe data ten koste van de oude kennis.
Conclusie: SFT-datasets moeten klein en van hoge kwaliteit zijn om interferentie te minimaliseren.

Inzicht 3: Stabiliteit en Scherpte bij Outcome Supervision (RL)

Vindt: Outcome Supervision (OS/RL) heeft een scherp gekromd en instabiel optimalisatielandschap.
Mechanisme: De gradienten in OS hangen exponentieel af van de spectrale straal van de overgangsmatrix. Als het model niet stabiel is (spectrale straal > 1), explodeert de gradient; als het te stabiel is, verdwijnt de gradient (vanishing gradient).
Conclusie: OS vereist grote hoeveelheden data om het model diep in het stabiele gebied te duwen en de kans op "overthinking" (instabiliteit tijdens inferentie) te verkleinen. Het is minder gevoelig voor de specifieke kwaliteit van labels dan SFT, maar wel zeer gevoelig voor dataschaal.

Inzicht 4: Synergie tussen Pre-training en Post-training

Vindt: De effectiviteit van post-training hangt af van de spectrale uitlijning tussen de pre-training distributie ( $\Sigma_0$ ) en de taakverschuiving ( $\Delta$ ).
Mechanisme: Een gebalanceerde pre-training (diverse data) zorgt ervoor dat het model start in een stabiel gebied ( $\rho < 1$ ). Voor nieuwe taken die volledig buiten de pre-training liggen, is OS/RL instabiel en moeilijk te trainen. SFT kan dit gedeeltelijk opvangen door gesuperviseerde signalen, maar OS vereist dat de taak grotendeels al "geleerd" is tijdens pre-training om stabiel te convergeren.

4. Resultaten en Experimentele Validatie

De auteurs valideren hun theorie met experimenten op twee niveaus:

Lineaire Self-Attention (LSA) modellen: Bevestigt de wiskundige afleidingen over convergentie en de vorm van de foutcurves.
GPT-2 (Niet-lineaire Transformer): Toont aan dat de inzichten generaliseren naar complexe, moderne architecturen.

Kernbevindingen uit de experimenten:

SFT: Toont een duidelijk "turning point". Het verhogen van het aantal voorbeelden ( $B$ ) of de contextlengte ( $n$ ) verbetert de prestaties tot een punt, waarna verdere vergroting de testfout doet stijgen (bevestiging van Inzicht 2).
Outcome Supervision (OS): Toont het tegenovergestelde gedrag. Grotere datasets ( $B$ ) en langere contexten ( $n$ ) leiden tot beter presterende modellen. Langere Chain-of-Thought ( $k$ ) tijdens training verhoogt echter de fout bij OS, wat de instabiliteit bevestigt (Inzicht 3).

5. Betekenis en Implicaties

Dit werk biedt een principieel theoretisch fundament voor het ontwerp van LLM-training pipelines:

Optimale Data Strategie: Er is geen "one-size-fits-all".
- Gebruik kleine, zorgvuldig geselecteerde, moeilijke datasets voor SFT om specifieke vaardigheden te leren zonder bestaande kennis te beschadigen.
- Gebruik grote, diverse datasets voor RL/OS om globale eigenschappen te verfijnen en stabiliteit te garanderen.
Data Kwaliteit vs. Schaal: De paper demystificeert waarom "meer data" niet altijd beter is voor SFT (vanwege interferentie), maar essentieel is voor RL (vanwege stabiliteit).
Pre-training Design: Het benadrukt dat pre-training niet alleen kennis moet overdragen, maar ook een spectraal gebalanceerde prior moet creëren die het model in staat stelt om stabiel te adpteren aan nieuwe taken zonder instabiele optimalisatiepaden.

Samenvattend biedt dit paper een wiskundig onderbouwd antwoord op de vraag hoe pre-training en post-training data moeten worden samengesteld om de beste redeneringsvaardigheden in LLMs te activeren, en legt het de theoretische grenzen uit van huidige praktijken zoals "more data is better" of "small high-quality data is better".