Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep jonge, slimme studenten (de AI-modellen) hebt die net hun universitaire diploma hebben gehaald. Ze zijn slim, maar ze weten nog niet hoe ze zich moeten gedragen in de echte wereld. Ze moeten leren hoe ze vragen moeten beantwoorden, hoe ze moeten redeneren en hoe ze zich moeten gedragen. Dit proces noemen we "post-training" of "aligneren".

De afgelopen twee jaar hebben onderzoekers tientallen verschillende "leerplannen" (algoritmen) bedacht om deze studenten te trainen. Sommige plannen zeggen: "Leren door te oefenen met een leraar" (SFT), andere zeggen: "Leren door te vergelijken met wat een andere student deed" (DPO), en weer andere zeggen: "Leren door te spelen en beloningen te krijgen" (RL).

Het probleem? Iedereen claimt dat hun leerplan het beste is, maar ze testen het op verschillende scholen, met verschillende studenten en verschillende examens. Het is een chaos.

De auteurs van dit paper (het onderzoek) hebben een enorme, gecontroleerde proef opgezet. Ze hebben 51 verschillende leerplannen getest op 8 verschillende soorten studenten (van heel klein tot heel groot) en hebben gekeken wie er echt wint.

Hier zijn de belangrijkste ontdekkingen, vertaald in alledaagse taal:

1. De "Grootte" van de student is belangrijker dan de "Leermethode"

Stel je voor dat je een leerplan hebt dat perfect werkt voor een kleuter (een klein model), maar totaal faalt voor een professor (een groot model). En omgekeerd: een methode die voor de kleuter slecht is, werkt wonderbaarlijk goed voor de professor.

Het verrassende resultaat: Bij kleine modellen (zoals een kleuter van 1,5 miljard parameters) was een methode genaamd SGRPO (een soort "leren door te spelen") de absolute winnaar.
De ommekeer: Maar zodra je naar de grootste modellen (7 miljard parameters) gaat, wint een heel andere methode: SimPO. De winnaar van de kleuterschool is nu de zeurpiet, en de zeurpiet is nu de beste.
De les: Je kunt niet zeggen "Methode X is het beste". Het hangt er volledig van af hoe groot je model is. De grootte van het brein bepaalt meer dan de manier waarop je het traint.

2. Het "Nieuwe Recept" is vaak slechts een kleine tweak

Er zijn 20 verschillende variaties van een populaire methode genaamd DPO. Het is alsof er 20 verschillende koks zijn die allemaal zeggen: "Mijn soeprecept is net iets anders dan dat van de ander, en daardoor is mijn soep lekkerder."

De ontdekking: De onderzoekers hebben 100 keer gekeken. Het resultaat? Geen enkele van die 20 variaties was echt beter dan het originele recept.
De uitzondering: Eén variatie (SimPO) was zelfs slechter dan het origineel.
De les: Het is een verspilling van tijd om te zoeken naar het perfecte wiskundige receptje (de "loss function"). Het originele recept werkt al prima. De echte winst zit hem niet in het kruiden, maar in de kwaliteit van de ingrediënten (de data) en de grootte van de pan (het model).

3. Wat je leert, werkt alleen op dat specifieke vak

Stel je voor dat je een student traint om wiskundige sommen op te lossen (GSM8K).

Op die specifieke wiskundetoets zien we enorme verschillen tussen de leerplannen. De ene student haalt 58%, de andere 38%. Dat is een groot verschil!
Maar als je diezelfde studenten een andere toets geeft (bijvoorbeeld algemene kennis of een heel moeilijk wiskundevak), dan verdwijnen die verschillen bijna volledig. Alle studenten scoren dan ongeveer even goed.
De les: Als je een AI traint voor een specifieke taak (zoals wiskunde), maakt het uit welke methode je kiest. Maar als je kijkt naar hoe slim de AI is in het algemeen, maakt het niet uit. De keuze van de methode is alleen belangrijk voor de taak waarvoor je traint.

4. De Hiërarchie van Succes (De "Gouden Regel")

De onderzoekers hebben een ranglijst opgesteld van wat het meeste effect heeft op de prestaties van een AI:

Grootte van het model (De grootte van de hersenen): Dit is verreweg het belangrijkst. Een groter model doet het veel beter, ongeacht de methode.
Het type training (Online spelen vs. offline leren): Dit maakt een groot verschil, maar minder dan de grootte.
De specifieke wiskundige formule (De loss function): Dit heeft bijna geen invloed. Het is als proberen de snelheid van een Formule 1-auto te verhogen door de kleur van de wielen te veranderen. Het maakt niet uit.

Samenvattend advies voor de praktijk

Als je een AI wilt bouwen, vergeet dan niet om te zoeken naar het "perfecte algoritme" of de nieuwste wiskundige formule. In plaats daarvan:

Zorg dat je een groot genoeg model hebt.
Gebruik de standaard methode (zoals DPO of SimPO, afhankelijk van de grootte), want de variaties zijn niet beter.
Test je model op de grootte die je uiteindelijk wilt gebruiken. Wat werkt voor een klein model, werkt vaak niet voor een groot model.

Kortom: Het is niet de methode die de winnaar bepaalt, maar de omvang van de student en de specifieke taak die hij moet leren. De rest is ruis.

Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

1. De "Grootte" van de student is belangrijker dan de "Leermethode"

2. Het "Nieuwe Recept" is vaak slechts een kleine tweak

3. Wat je leert, werkt alleen op dat specifieke vak

4. De Hiërarchie van Succes (De "Gouden Regel")

Samenvattend advies voor de praktijk

Probleemstelling

Methodologie: Het OXRL Framework

Belangrijkste Bevindingen en Resultaten

1. Schaalafhankelijke Ranking Inversies

2. Verliesfunctie-varianten hebben verwaarloosbaar effect

3. Taakspecifieke Leverage

4. Hiërarchie van Invloed (Leverage)

5. Methodologische Waarschuwing

Significantie en Aanbevelingen

Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

1. De "Grootte" van de student is belangrijker dan de "Leermethode"

2. Het "Nieuwe Recept" is vaak slechts een kleine tweak

3. Wat je leert, werkt alleen op dat specifieke vak

4. De Hiërarchie van Succes (De "Gouden Regel")

Samenvattend advies voor de praktijk

Probleemstelling

Methodologie: Het OXRL Framework

Belangrijkste Bevindingen en Resultaten

1. Schaalafhankelijke Ranking Inversies

2. Verliesfunctie-varianten hebben verwaarloosbaar effect

3. Taakspecifieke Leverage

4. Hiërarchie van Invloed (Leverage)

5. Methodologische Waarschuwing

Significantie en Aanbevelingen

Meer zoals dit