Oorspronkelijke auteurs: Yuhao Li, Shengchao Liu

Gepubliceerd 2026-05-12

📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Yuhao Li, Shengchao Liu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

De Grote Vraag: Hebben We het Model Geleerd, of Hebben We het Gewekt?

Stel je voor dat je een zeer getalenteerde maar lichtelijk verwarde muzikant hebt (het AI-model) die jarenlang op eigen houtje heeft geoefend (pre-training). Nu wil je hem een nieuw liedje leren.

Er is een groot debat in de AI-wereld over hoe we hen leren.

Methode A (SFT): Je speelt hen een opname van een perfecte uitvoering voor en zegt: "Kopieer dit exact."
Methode B (RL): Je laat hen spelen, en elke keer als ze een goede noot raken, krijg je een beloning. Elke keer als ze een slechte noot raken, krijg je niets.

Het algemene geloof is: Methode A zorgt er alleen voor dat ze imiteren wat ze al weten (Imitatie), terwijl Methode B hen helpt nieuwe, verbazingwekkende dingen te ontdekken die ze nooit wisten dat ze konden doen (Ontdekking).

De auteurs van dit artikel zeggen: "Stop. Dat onderscheid is te simpel."

Ze betogen dat de echte vraag niet hoe je leert (kopiëren versus beloningen), maar wat je eigenlijk leert. Heb je de muzikant alleen geholpen een liedje te spelen waar hij al toe in staat was, maar dat hij bleef verprutsen? Of heb je hem daadwerkelijk de mogelijkheid gegeven een liedje te spelen dat hij fysiek niet eerder kon spelen?

Ze noemen deze twee dingen:

Capaciteit-ontsluiting (Capability Elicitation): Een vaardigheid wakker maken die al aanwezig was, maar sliep.
Capaciteit-schepping (Capability Creation): De muzikant een gloednieuwe vaardigheid geven die hij niet had.

De "Energie-landschap" Analogie

Om dit uit te leggen, gebruiken de auteurs een natuurkundig concept genaamd Vrije Energie. Stel je voor dat het brein van de muzikant een heuvelachtig landschap is.

De Valleien (Bassins): Dit zijn de makkelijke liedjes die de muzikant van nature speelt. Ze zijn diep, comfortabel en makkelijk in te vallen.
De Heuvels (Staarten): Dit zijn liedjes die de muzikant zou kunnen spelen, maar ze liggen erg hoog. Het kost veel moeite (of veel pogingen) om daar te komen.
De Muren (Barrières): Dit zijn liedjes die gescheiden zijn door een enorme, onklimbare muur. De muzikant kan ze niet bereiken door gewoon rond te lopen; hij heeft een ladder of een brug nodig.
De Andere Kant van de Wereld (Niet-ondersteund): Dit zijn liedjes die simpelweg nog niet bestaan in het universum van de muzikant.

Hoe Training Werkt op Deze Kaart

Zowel "Kopiëren" (SFT) als "Beloningen" (RL) werken door het landschap te kantelen.

Als je een beloning geeft voor een liedje in een Vallei, wordt de vallei dieper. De muzikant speelt dat liedje vaker.
Als je een beloning geeft voor een liedje op een Heuvel, krijgt de heuvel een helling. De muzikant kan nu makkelijker naar dat liedje klimmen.

Het Cruciale Punt:
Als het liedje al in een Vallei zat of op een Heuvel, heb je geen nieuwe vaardigheid gecreëerd. Je hebt alleen een bestaande vaardigheid betrouwbaarder gemaakt. Dit is Ontsluiting.

Als het liedje achter een Muur zat, en je trainingsmethode heeft op de een of andere manier een brug of ladder gebouwd om daar te komen, dan heb je een nieuwe vaardigheid gecreëerd. Dit is Schepping.

De Vier Zones van Leren

Het artikel onderverdeelt post-training in vier specifieke scenario's gebaseerd op deze kaart:

1. De "Veilige Zone" (Demonstratie-gedekte Ontsluiting)

Het Scenario: De muzikant kent het liedje al perfect, maar vergeet soms de tekst. Je laat hem de bladmuziek zien (demonstraties).
Het Resultaat: Hij stopt met vergeten. Hij heeft geen nieuw liedje geleerd; hij heeft alleen een oud liedje gestabiliseerd.
De Conclusie: Of je nu kopieert of beloningen gebruikt, als het antwoord al makkelijk te vinden was, polijst je alleen een ruwe edelsteen, je creëert geen nieuwe.

2. De "Verborgen Schat" (Staart-herschikking)

Het Scenario: De muzikant kent een complex jazz-solo, maar hij speelt het slechts één keer in een miljoen pogingen. Het is verborgen in de "Heuvels".
Het Resultaat: Je gebruikt een beloningssysteem om te zeggen: "Wauw, dat jazz-solo was geweldig!" Plotseling speelt hij het de hele tijd.
De Conclusie: Het lijkt op magie omdat de prestatie omhoog schoot. Maar de muzikant had het de hele tijd kunnen spelen; hij had alleen een duwtje nodig om het te vinden. Dit is nog steeds Ontsluiting, geen schepping.

3. De "Brugbouwer" (Barrière-overstijgende Ontdekking)

Het Scenario: De muzikant moet een liedje spelen dat een reeks stappen vereist die hij nog nooit samen heeft genomen. Het zit achter een muur.
Het Resultaat: Je geeft niet alleen een beloning aan het einde. Je geeft beloningen voor stappen onderweg, of je laat hen een hulpmiddel gebruiken (zoals een ladder) om de kloof over te steken.
De Conclusie: Dit is Capaciteit-schepping. De training heeft niet alleen de heuvel gekanteld; het heeft het terrein veranderd zodat de muzikant een plek kon bereiken waar hij eerder van geblokkeerd was.

4. De "Onmogelijke Zone" (Niet-ondersteunde Regimes)

Het Scenario: Je vraagt de muzikant een liedje te spelen dat een viool vereist, maar hij heeft alleen een gitaar.
Het Resultaat: Geen hoeveelheid kopiëren of belonen zal helpen. De "energie" die nodig is om dat liedje te spelen, is oneindig.
De Conclusie: Je kunt hier geen "capaciteit" creëren met alleen training. Je hebt nieuwe informatie, een nieuw instrument of een heel ander model nodig.

Waarom Dit Belangrijk Is

Het artikel betoogt dat we vaak in de war zijn omdat we kijken naar de methode (SFT versus RL) in plaats van het mechanisme.

Mythe: "RL is magie omdat het nieuwe vaardigheden creëert."
Realiteit: RL creëert alleen nieuwe vaardigheden als het gepaard gaat met hulpmiddelen, zoekopdrachten of interactie die het model helpen om "muren" over te steken. Als RL het model alleen beloningen geeft voor dingen die het al kon doen, is het gewoon Ontsluiting.
Mythe: "SFT is zwak omdat het alleen kopieert."
Realiteit: Als de "kopieer"-data afkomstig is van een super-slimme bron (zoals een zoekmachine of een sterker AI-model), kan SFT het model dingen leren die het nooit wist, en werkt het effectief als Schepping.

De Conclusie

Wanneer we zien dat een AI beter wordt, zouden we niet alleen moeten vragen: "Hebben ze Reinforcement Learning gebruikt?"

We zouden moeten vragen: "Hebben ze de AI alleen maar beter gemaakt in dingen die het al kon, of hebben ze de AI daadwerkelijk de mogelijkheid gegeven iets te doen wat het voorheen niet kon?"

Het artikel suggereert dat we de meeste tijd alleen vaardigheden wakker maken die al aanwezig waren (Ontsluiting), en dat we zeer voorzichtig moeten zijn voordat we beweren dat we echt nieuwe capaciteiten hebben uitgevonden (Schepping).

Technische Samenvatting: Onderscheid tussen Capabiliteit-Elicitatie en Capabiliteit-Creatie in Post-Training

1. Probleemstelling

De heersende discours rondom post-training van grote taalmodellen (LLM's) presenteert het onderscheid tussen Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) vaak als een dichotomie tussen imitatie (SFT) en ontdekking (RL). Dit artikel betoogt dat dit onderscheid te grof is en het fundamentele mechanisme verduistert waarmee post-training het modelgedrag verandert.

Het kernprobleem is het bepalen of een post-training-procedure:

Capabiliteiten eliceert: De waarschijnlijkheid verhoogt van gedragingen die het vooraf getrainde basismodel al kon produceren, maar dat onbetrouwbaar deed.
Capabiliteiten creëert: De set van gedragingen die het model praktisch kan bereiken, uitbreidt, waardoor resultaten mogelijk worden die eerder ontoegankelijk waren.

De auteurs betogen dat het labelen van een methode als "SFT" of "RL" niet het mechanisme van capabiliteit bepaalt. In plaats daarvan hangt het mechanisme af van de bron van trainingssignalen (demonstraties versus beloningen), de generatie van kandidaat-gedragingen, en of het proces de toegankelijke steun van het model uitbreidt.

2. Methodologie en Theoretisch Kader

2.1 Het Vrije-Energie Perspectief

De auteurs formaliseren post-training met behulp van een vrije-energiekader, waarbij een analogie wordt getrokken met statistische fysica ($F = E - TS$). Zij interpreteren post-training-doelstellingen als het minimaliseren van een effectieve vrije energie:
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
Waarbij:

$p_0(y|x)$ de vooraf getrainde referentieverdeling is.
$q(y|x)$ de na training verkregen verdeling is.
$E(x, y)$ de effectieve energie is die is afgeleid van externe signalen.
$\beta$ fungeert als een inverse temperatuur, die de afweging regelt tussen het benutten van gewenst gedrag en het behouden van diversiteit (KL-beperking).

Belangrijke Theoretische Inzichten:

SFT als Energie: SFT minimaliseert de negatieve log-waarschijnlijkheid op demonstraties. Dit komt overeen met het definiëren van een effectieve energie $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ . Als een gedraging in de demonstratieverdeling zit maar een nulwaarschijnlijkheid heeft in het basismodel ( $p_0 \to 0$ ), wordt de energie singulier, waardoor de interpretatie van lokale herweging faalt.
RL als Energie: RL maximaliseert beloningen onderworpen aan een KL-beperking. Dit komt overeen met $E_{RL}(x, y) = -R(x, y)$ . De optimale verdeling is een Boltzmann-herweging van de referentie: $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
Lokale Herweging: Wanneer updates dicht bij het referentiemodel blijven (sterke KL-beperking), is het primaire effect lokale herweging van de bestaande verdeling, en niet het creëren van nieuw gedrag.

2.2 Toegankelijke Steun

Om het onderscheid tussen elicitatie en creatie te operationaliseren, introduceert het artikel toegankelijke steun: de set van gedragingen die een model praktisch kan produceren onder beperkingen van bemonstering, optimalisatie en divergentie. Dit concept gaat verder dan strikte wiskundige steun (niet-nul waarschijnlijkheid) en richt zich op praktische bereikbaarheid.

De auteurs categoriseren het gedragslandschap in vier regimes op basis van de relatie tussen het doelgedrag en de toegankelijke steun van het basismodel:

Demonstratie-Gedekte Elicitatie: Het doelgedrag ligt in een hoog-waarschijnlijk "bekken" van het basismodel en wordt gedekt door demonstraties. Post-training stabiliseert dit bestaande gedrag.
Staart-Herweging: Het doelgedrag ligt in de "staart" van de verdeling van het basismodel (zeldzaam onder greedy decoding maar bereikbaar onder grotere bemonsteringsbudgetten zoals best-of-N). Post-training versterkt deze zeldzame maar bereikbare gedragingen.
Barrière-Overstijgende Ontdekking: Het doelgedrag is gescheiden van de typische output van het basismodel door "barrières" (reeksen van lage-waarschijnlijkheid tussenstappen). Het bereiken hiervan vereist het veranderen van het traject-generatieproces (bijvoorbeeld via zoektocht, gebruik van hulpmiddelen of proces-supervisie), en niet alleen herweging.
Ondersteunde Regimes: Het doelgedrag ligt buiten de steun van het basismodel ( $p_0(y|x) = 0$ ). De effectieve energie wordt divergent. Post-training kan deze capabiliteiten niet creëren zonder nieuwe informatie, hulpmiddelen of architecturale wijzigingen.

3. Belangrijkste Bijdragen

Herformulering van het SFT vs. RL-debat: Het artikel verschuift de focus van algoritmische labels (SFT/RL) naar het mechanisme van capabiliteitsverandering (elicitatie versus creatie). Het betoogt dat SFT nieuw gedrag kan eliceren als demonstraties van hoge kwaliteit zijn (en de staart dekken), en dat RL slechts herweging kan zijn als het beperkt wordt door een sterke KL-boete.
Diagnostisch Kader: Door het vrije-energieperspectief toe te passen, bieden de auteurs een wiskundig hulpmiddel om te diagnosticeren of prestatiewinst voortkomt uit lokale herweging (binnen toegankelijke steun) of uit steunuitbreiding (barrières overstijgen).
De Vier Regimes: Het artikel vestigt een taxonomie voor post-training-resultaten, waarbij wordt verduidelijkt dat "capabiliteitscreatie" geen binair kenmerk is van een methode, maar een eigenschap van de interactie tussen het trainingssignaal, het proces voor kandidaatgeneratie en de bereikbaarheid van het basismodel.
Verduidelijking van "Creatie": De auteurs betogen dat ware capabiliteitscreatie (Barrière-Overstijgende Ontdekking) mechanismen vereist die het traject-generatieproces veranderen (bijvoorbeeld zoektocht, interactie, gebruik van hulpmiddelen), in plaats van geïsoleerde beloningsmaximalisatie.

4. Resultaten en Claims

Het artikel presenteert geen nieuwe empirische benchmarks, maar biedt een diagnostische analyse van bestaande post-training-verschijnselen:

SFT is niet inherent zwak: Als demonstraties trajecten bevatten die zijn gegenereerd door zoektocht of sterkere modellen, kan SFT gedragingen eliceren die het basismodel zelden produceert. De beperking van SFT is de dekking van de demonstratieverdeling, niet het supervised doel zelf.
RL is niet inherent creatief: Als RL wordt toegepast met sterke KL-beperkingen en zonder zoekmechanismen, weegt het slechts de staartgedragingen van het basismodel opnieuw. Grote benchmarkwinsten in dit regime reflecteren staart-herweging, en niet het creëren van nieuwe capabiliteiten.
De Singulierheidsgrens: De overgang van elicitatie naar creatie wordt gemarkeerd door een singulariteit in de vrije-energieformulering. Wanneer $p_0(y|x) \to 0$ voor een vereist gedrag, faalt het perspectief van lokale herweging, wat aangeeft dat het gedrag buiten de toegankelijke steun ligt.

5. Betekenis en Reikwijdte

Het artikel claimt dat het onderscheid tussen capabiliteit-elicitatie en capabiliteit-creatie essentieel is voor rigoureuze post-training-onderzoek.

Bescheiden Claims: De auteurs stellen expliciet dat zij niet claimen dat SFT en RL identiek zijn, noch dat optimalisatiedynamiek irrelevant is. In plaats daarvan betogen zij dat optimalisatiedynamiek geïnterpreteerd moet worden ten opzichte van het regime (bijvoorbeeld in regimes voor barrière-overstijging moet optimalisatie worden gekoppeld aan veranderingen in trajectgeneratie).
Reikwijdte: Het kader is diagnostisch. Het verduidelijkt dat prestatieverbeteringen op zichzelf onvoldoende bewijs zijn van capabiliteitscreatie. Om creatie te claimen, moet men aantonen dat de methode de bereikbare gedragsruimte van het model heeft uitgebreid, vaak via zoektocht, interactie of nieuwe informatie, in plaats van simpelweg bestaande kansen opnieuw te wegen.
Toekomstige Richting: Het artikel roept op tot toekomstig werk om deze regimes expliciet te onderscheiden. Onderzoekers zouden niet alleen prestatiewinst moeten rapporteren, maar ook of die winst de stabilisatie van bekens, de versterking van staarten, of het overstijgen van barrières weerspiegelt.

Kortom, het artikel stelt dat de centrale vraag in post-training niet "SFT of RL?" is, maar "Weegt deze methode wat al bereikbaar is opnieuw, of breidt het uit wat bereikbaar is?"

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective