Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Dit artikel toont aan dat post-training met policy gradients en outcome rewards een theoretisch optimale benadering biedt binnen het ondersteuningsgebied van het basismodel, maar dat het gebruik van process rewards noodzakelijk is om de exponentiële complexiteit te overwinnen en buiten dit gebied te generaliseren.

Alireza Mousavi-Hosseini, Murat A. Erdogdu

Gepubliceerd Tue, 10 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Versterken van een Taalmodel: Waarom "Oefenen" Niet Altijd Werkt (en hoe we het kunnen oplossen)

Stel je voor dat je een zeer slimme, maar nog onvoltooide kunstenaar hebt. Deze kunstenaar is jarenlang getraind op duizenden schilderijen (dit is het basismodel of pre-training). Hij kan prachtige landschappen en portretten maken, maar hij heeft nog nooit een ruimtevaartuig geschilderd, omdat er geen voorbeelden van in zijn trainingsmateriaal zaten.

Nu wil je hem leren om ruimtevaartuigen te schilderen. Je hebt een "jury" (de beloning of reward) die alleen zegt: "Ja, dat is een goed ruimtevaartuig" of "Nee, dat is het niet." Je geeft de kunstenaar geen stap-voor-stap instructies, alleen het eindoordeel. Dit noemen we Outcome Reward (beloning op basis van het eindresultaat).

Deze paper onderzoekt wat er gebeurt als je deze kunstenaar laat oefenen met deze jury.

1. Het Probleem: De "Onzichtbare Muur"

De auteurs ontdekken een groot probleem. Als de kunstenaar al een klein beetje kans heeft om een ruimtevaartuig te schilderen (bijvoorbeeld 1 op de 1000 pogingen), kan hij met veel oefening en feedback van de jury dit verbeteren tot bijna 100%.

Maar, als de kunstenaar nooit eerder een ruimtevaartuig heeft geschilderd (de kans is 0 of extreem klein, bijna nul), dan stuit hij op een muur.

  • De Analogie: Stel je voor dat je in een donker lokaal staat en je moet een specifieke, onbekende knop vinden op een muur met 1 miljard knoppen. Als je willekeurig drukt, duurt het eeuwen voordat je de juiste vindt.
  • De bevinding: Zelfs als je de kunstenaar oneindig veel tijd geeft om te oefenen met alleen de eindjury, kan hij de "ruimtevaartuigen" (de antwoorden die buiten zijn bestaande kennis vallen) nooit leren te maken. Hij blijft vastzitten in wat hij al kent. De paper noemt dit de "Base Model Barrier" (de barrière van het basismodel).

2. De Oplossing: De "Tussenstap-Jury" (Process Rewards)

Hoe los je dit op? De auteurs stellen een slimme truc voor: in plaats van alleen te kijken naar het eindresultaat, geef je de kunstenaar feedback na elke penseelstreek.

  • De Analogie: In plaats van pas te zeggen "Dit is geen goed ruimtevaartuig" als het hele schilderij klaar is, zegt de jury na elke streek: "Goed, dat lijken de vleugels," of "Nee, die lijn hoort niet zo." Dit noemen ze Process Rewards (procesbeloning).
  • Het Effect: Hierdoor hoeft de kunstenaar niet meer blind te zoeken in de duisternis. Hij kan stap voor stap controleren of hij op de goede weg is.
  • Het Resultaat: Met deze methode kan de kunstenaar wel degelijk leren om ruimtevaartuigen te schilderen, zelfs als hij ze nooit eerder heeft gezien. Hij breekt door de muur heen. De paper toont wiskundig aan dat dit veel efficiënter is en niet vastloopt in de "barrière".

3. De Wiskundige "Rekenmachine" (De Kwantile)

De auteurs gebruiken een term die ze "Likelihood Quantile" noemen.

  • Simpele uitleg: Stel je voor dat je een lijst hebt van alle mogelijke antwoorden die de kunstenaar kan geven, gesorteerd van "meest waarschijnlijk" tot "minst waarschijnlijk". De Quantile zegt: "Hoe goed is de kunstenaar in het vinden van het juiste antwoord binnen de top X% van zijn eigen ideeën?"
  • De conclusie: Als de kunstenaar het juiste antwoord niet in zijn "top 100%" heeft staan (het is te exotisch voor hem), dan kan hij het met alleen eindbeloning nooit leren. Maar met tussenstap-beloning (proces) kan hij het wel vinden, omdat hij de weg kan afleggen in kleine, beheersbare stukjes.

4. Wat betekent dit voor de toekomst?

Deze paper is belangrijk voor de ontwikkeling van AI (zoals Chatbots of AI die wiskunde oplost):

  1. Niet alles is mogelijk: Als een AI-model een vraag niet kan beantwoorden omdat het antwoord volledig buiten zijn trainingsdata valt, helpt "gewoon oefenen" met alleen een ja/nee-score niet. Je kunt geen nieuwe kennis creëren uit het niets als je basis te zwak is.
  2. Stap-voor-stap is beter: Om AI echt slimmer te maken en nieuwe dingen te leren, moeten we niet wachten op het eindantwoord. We moeten AI helpen om de weg naar het antwoord te controleren (zoals een leraar die meekijkt tijdens het rekenen, niet pas als het antwoord op het bord staat).

Samenvattend:
Je kunt een kunstenaar niet leren een nieuw onderwerp te schilderen door alleen te zeggen "Fout" of "Goed" als het schilderij klaar is als hij nog nooit zo'n onderwerp heeft gezien. Je moet hem helpen door te zeggen: "Goede streek, maar die lijn is scheef," zodat hij stap voor stap de nieuwe vaardigheid kan opbouwen. De paper bewijst wiskundig dat deze "stap-voor-stap" methode de enige manier is om de grenzen van het basismodel te doorbreken.