On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Dit artikel stelt een vrije-energiekader voor om onderscheid te maken tussen het aan het licht brengen van capaciteiten, waarbij bestaande gedragingen binnen de toegankelijke ondersteuning van een model worden herschikt, en het creëren van capaciteiten, waarbij die ondersteuning wordt uitgebreid door middel van mechanismen zoals zoeken of het gebruik van hulpmiddelen, en betoogt dat dit onderscheid kritischer is dan de traditionele tweedeling tussen SFT en RL in de post-training.

Oorspronkelijke auteurs: Yuhao Li, Shengchao Liu

Gepubliceerd 2026-05-12
📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Yuhao Li, Shengchao Liu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

De Grote Vraag: Hebben We het Model Geleerd, of Hebben We het Gewekt?

Stel je voor dat je een zeer getalenteerde maar lichtelijk verwarde muzikant hebt (het AI-model) die jarenlang op eigen houtje heeft geoefend (pre-training). Nu wil je hem een nieuw liedje leren.

Er is een groot debat in de AI-wereld over hoe we hen leren.

  • Methode A (SFT): Je speelt hen een opname van een perfecte uitvoering voor en zegt: "Kopieer dit exact."
  • Methode B (RL): Je laat hen spelen, en elke keer als ze een goede noot raken, krijg je een beloning. Elke keer als ze een slechte noot raken, krijg je niets.

Het algemene geloof is: Methode A zorgt er alleen voor dat ze imiteren wat ze al weten (Imitatie), terwijl Methode B hen helpt nieuwe, verbazingwekkende dingen te ontdekken die ze nooit wisten dat ze konden doen (Ontdekking).

De auteurs van dit artikel zeggen: "Stop. Dat onderscheid is te simpel."

Ze betogen dat de echte vraag niet hoe je leert (kopiëren versus beloningen), maar wat je eigenlijk leert. Heb je de muzikant alleen geholpen een liedje te spelen waar hij al toe in staat was, maar dat hij bleef verprutsen? Of heb je hem daadwerkelijk de mogelijkheid gegeven een liedje te spelen dat hij fysiek niet eerder kon spelen?

Ze noemen deze twee dingen:

  1. Capaciteit-ontsluiting (Capability Elicitation): Een vaardigheid wakker maken die al aanwezig was, maar sliep.
  2. Capaciteit-schepping (Capability Creation): De muzikant een gloednieuwe vaardigheid geven die hij niet had.

De "Energie-landschap" Analogie

Om dit uit te leggen, gebruiken de auteurs een natuurkundig concept genaamd Vrije Energie. Stel je voor dat het brein van de muzikant een heuvelachtig landschap is.

  • De Valleien (Bassins): Dit zijn de makkelijke liedjes die de muzikant van nature speelt. Ze zijn diep, comfortabel en makkelijk in te vallen.
  • De Heuvels (Staarten): Dit zijn liedjes die de muzikant zou kunnen spelen, maar ze liggen erg hoog. Het kost veel moeite (of veel pogingen) om daar te komen.
  • De Muren (Barrières): Dit zijn liedjes die gescheiden zijn door een enorme, onklimbare muur. De muzikant kan ze niet bereiken door gewoon rond te lopen; hij heeft een ladder of een brug nodig.
  • De Andere Kant van de Wereld (Niet-ondersteund): Dit zijn liedjes die simpelweg nog niet bestaan in het universum van de muzikant.

Hoe Training Werkt op Deze Kaart

Zowel "Kopiëren" (SFT) als "Beloningen" (RL) werken door het landschap te kantelen.

  • Als je een beloning geeft voor een liedje in een Vallei, wordt de vallei dieper. De muzikant speelt dat liedje vaker.
  • Als je een beloning geeft voor een liedje op een Heuvel, krijgt de heuvel een helling. De muzikant kan nu makkelijker naar dat liedje klimmen.

Het Cruciale Punt:
Als het liedje al in een Vallei zat of op een Heuvel, heb je geen nieuwe vaardigheid gecreëerd. Je hebt alleen een bestaande vaardigheid betrouwbaarder gemaakt. Dit is Ontsluiting.

Als het liedje achter een Muur zat, en je trainingsmethode heeft op de een of andere manier een brug of ladder gebouwd om daar te komen, dan heb je een nieuwe vaardigheid gecreëerd. Dit is Schepping.


De Vier Zones van Leren

Het artikel onderverdeelt post-training in vier specifieke scenario's gebaseerd op deze kaart:

1. De "Veilige Zone" (Demonstratie-gedekte Ontsluiting)

  • Het Scenario: De muzikant kent het liedje al perfect, maar vergeet soms de tekst. Je laat hem de bladmuziek zien (demonstraties).
  • Het Resultaat: Hij stopt met vergeten. Hij heeft geen nieuw liedje geleerd; hij heeft alleen een oud liedje gestabiliseerd.
  • De Conclusie: Of je nu kopieert of beloningen gebruikt, als het antwoord al makkelijk te vinden was, polijst je alleen een ruwe edelsteen, je creëert geen nieuwe.

2. De "Verborgen Schat" (Staart-herschikking)

  • Het Scenario: De muzikant kent een complex jazz-solo, maar hij speelt het slechts één keer in een miljoen pogingen. Het is verborgen in de "Heuvels".
  • Het Resultaat: Je gebruikt een beloningssysteem om te zeggen: "Wauw, dat jazz-solo was geweldig!" Plotseling speelt hij het de hele tijd.
  • De Conclusie: Het lijkt op magie omdat de prestatie omhoog schoot. Maar de muzikant had het de hele tijd kunnen spelen; hij had alleen een duwtje nodig om het te vinden. Dit is nog steeds Ontsluiting, geen schepping.

3. De "Brugbouwer" (Barrière-overstijgende Ontdekking)

  • Het Scenario: De muzikant moet een liedje spelen dat een reeks stappen vereist die hij nog nooit samen heeft genomen. Het zit achter een muur.
  • Het Resultaat: Je geeft niet alleen een beloning aan het einde. Je geeft beloningen voor stappen onderweg, of je laat hen een hulpmiddel gebruiken (zoals een ladder) om de kloof over te steken.
  • De Conclusie: Dit is Capaciteit-schepping. De training heeft niet alleen de heuvel gekanteld; het heeft het terrein veranderd zodat de muzikant een plek kon bereiken waar hij eerder van geblokkeerd was.

4. De "Onmogelijke Zone" (Niet-ondersteunde Regimes)

  • Het Scenario: Je vraagt de muzikant een liedje te spelen dat een viool vereist, maar hij heeft alleen een gitaar.
  • Het Resultaat: Geen hoeveelheid kopiëren of belonen zal helpen. De "energie" die nodig is om dat liedje te spelen, is oneindig.
  • De Conclusie: Je kunt hier geen "capaciteit" creëren met alleen training. Je hebt nieuwe informatie, een nieuw instrument of een heel ander model nodig.

Waarom Dit Belangrijk Is

Het artikel betoogt dat we vaak in de war zijn omdat we kijken naar de methode (SFT versus RL) in plaats van het mechanisme.

  • Mythe: "RL is magie omdat het nieuwe vaardigheden creëert."

  • Realiteit: RL creëert alleen nieuwe vaardigheden als het gepaard gaat met hulpmiddelen, zoekopdrachten of interactie die het model helpen om "muren" over te steken. Als RL het model alleen beloningen geeft voor dingen die het al kon doen, is het gewoon Ontsluiting.

  • Mythe: "SFT is zwak omdat het alleen kopieert."

  • Realiteit: Als de "kopieer"-data afkomstig is van een super-slimme bron (zoals een zoekmachine of een sterker AI-model), kan SFT het model dingen leren die het nooit wist, en werkt het effectief als Schepping.

De Conclusie

Wanneer we zien dat een AI beter wordt, zouden we niet alleen moeten vragen: "Hebben ze Reinforcement Learning gebruikt?"

We zouden moeten vragen: "Hebben ze de AI alleen maar beter gemaakt in dingen die het al kon, of hebben ze de AI daadwerkelijk de mogelijkheid gegeven iets te doen wat het voorheen niet kon?"

Het artikel suggereert dat we de meeste tijd alleen vaardigheden wakker maken die al aanwezig waren (Ontsluiting), en dat we zeer voorzichtig moeten zijn voordat we beweren dat we echt nieuwe capaciteiten hebben uitgevonden (Schepping).

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →