Oorspronkelijke auteurs: Ousmane Amadou Dia

Gepubliceerd 2026-06-09✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Ousmane Amadou Dia

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een gigantische, superintelligente robot probeert te leren hoe hij code moet schrijven, wiskundige problemen moet oplossen, of met mensen kan chatten op een manier die mensen ook echt leuk vinden. De standaardmanier om dit te doen (genoemd PPO of GRPO) is een beetje als een strenge coach die zegt: "Doe precies wat de vorige keer werkte, maar verander niet te veel, anders word je eruit geknikkerd."

Hoewel dit werkt, stelt het artikel dat het drie grote problemen heeft:

Het "Eentonigheids-probleem": De robot blijft steeds dezelfde paar dingen herhalen omdat die een hoge score opleverden, waardoor hij andere creatieve manieren mist om problemen op te lossen.
Het "Breekbare" probleem: Als de robot nieuwe ideeën probeert te verkennen, raakt hij vaak in de war of gaat het mis, omdat de regels voor "hoeveel verandering is toegestaan" rigide en willekeurig zijn.
Het "Drift"-probleem: De robot vergeet langzaam hoe hij zich hoorde te gedragen en begint het systeem te manipuleren om hoge scores te halen zonder daadwerkelijk behulpzaam te zijn.

De Nieuwe Oplossing: VP2O (Variational Proximal Policy Optimization)

De auteurs stellen een nieuwe methode voor genaamd VP2O. Om dit te begrijpen, laten we een paar analogieën gebruiken.

1. Het "Gespecialiseerde Team" versus de "Generalist"

In plaats van één gigantisch brein te trainen dat alles doet, gebruikt het artikel een Mixture-of-Experts (MoE) model. Stel je dit voor als een bedrijf met 20 verschillende specialisten (experts) die in een kamer zitten.

De Oude Manier: De manager (de router) kiest één specialist om de taak uit te voeren, en ze proberen allemaal dezelfde perfecte specialist te worden. Uiteindelijk gaan ze allemaal hetzelfde denken en verliest het team zijn creativiteit.
De VP2O-Manier: De manager kiest een klein team van specialisten voor elke taak. VP2O behandelt elke specialist als een uniek "deeltje" of individu. Het doel is niet dat ze allemaal hetzelfde worden; het doel is dat ze verschillend zijn, maar allemaal goed in hun specifieke taken.

2. De "Magnetische Dansvloer" (Stein Variational Gradient Descent)

Dit is de kern van de magie in het artikel. Stel je voor dat de 20 specialisten dansers zijn op een vloer.

De Aantrekking (Magnetisme): Er is een "hoge-beloningszone" op de vloer (waar de beste antwoorden te vinden zijn). De dansers worden magnetisch naar deze zone getrokken.
De Afstoting (Persoonlijke Ruimte): In de oude methode zouden de dansers naar dezelfde plek toe kruipen en over elkaar heen struikelen (dit wordt "mode collapse" genoemd). VP2O voegt een regel toe: "Als je te dicht bij iemand anders bent, moet je wegduwen."
Het Resultaat: De dansers verspreiden zich over de hoge-beloningszone. Ze dekken meer terrein af en vinden zo veel meer verschillende manieren om een probleem op te lossen (zoals het schrijven van code), in plaats van slechts één "perfecte" manier.

3. De "Slimme Coach" versus de "Clipping Rule"

In de oude methode gebruikt de coach een "clipping"-regel: "Als je je dansbewegingen met meer dan 10% verandert, stop ik je." Dit is een bot instrument.

VP2O's Aanpak: In plaats van een harde stop, gebruikt VP2O geometrie. Het kij르게 naar de "vorm" van de bewegingen van de dansers. Het zegt: "Je mag bewegen hoeveel je wilt, zolang je maar binnen deze specifieke geometrische vorm blijft ten opzichte van waar je begon."
Dit maakt voor meer natuurlijke, vloeiende beweging mogelijk. De robot kan nieuwe ideeën verkennen zonder de regels te breken, omdat de regels gebaseerd zijn op de werkelijke vorm van het leerproces, en niet op een willekeurig getal.

4. Het "Orthogonale" Doel

Om ervoor te zorgen dat de specialisten elkaar niet kopiëren, voegt VP2O een regel toe die Orthogonalisatie wordt genoemd.

Analogie: Stel je voor dat je twee experts vraagt een wiskundeprobleem op te lossen. Als ze beiden exact dezelfde methode gebruiken, is dat inefficiënt. VP2O dwingt hen om verschillende methoden te gebruiken (zoals de een algebra gebruikt en de ander meetkunde). Dit zorgt ervoor dat het team over een breed scala aan hulpmiddelen beschikt om elk probleem aan te pakken.

Wat gebeurde er toen ze het probeerden?

De auteurs testten dit op een massaal model (33 miljard parameters) met 20 experts. Dit is wat ze ontdekten:

Coderen (Codeforces): Dit was de grootste overwinning. De nieuwe methode verbeterde de programmeerscore van de robot met 179 punten (een enorme sprong in competitief programmeren). De robot werd niet alleen beter; hij vond meer diverse manieren om code-problemen op te lossen.
Wiskunde (AIME): De robot loste meer wiskundeproblemen correct op. Interessant genoeg gebruikte hij minder woorden om het uiteindelijke antwoord te verklaren, ook al besteedde hij meer tijd aan "nadenken" (het genereren van interne redeneringen). Hij werd efficiënter.
Instructie-opvolging: De robot werd veel beter in het opvolgen van complexe instructies, waarschijnlijk omdat hij niet vastzat in een "one-size-fits-all" routine.

De Kernboodschap

Het artikel beweert dat door het "brein" van de AI te behandelen als een team van diverse specialisten die worden aangemoedigd om verschillend te zijn (door middel van magnetische afstoting in plaats van identiek te zijn), de AI:

Creatiever wordt (het vindt meer manieren om problemen op te lossen).
Stabieler wordt (het crasht niet of loopt niet vast).
Efficiënter wordt (het gebruikt minder tokens om de taak te voltooien).

De auteurs benadrukken dat dit het beste werkt wanneer de AI lange, complexe antwoorden moet schrijven (zoals 16.000 tokens), waarbij het hebben van een divers team van "experts" waardevoller is dan een enkele, rigide strategie.

Technische Samenvatting: Variational Proximal Policy Optimization (VP2O)

1. Probleemstelling

Reinforcement Learning from Human Feedback (RLHF) met gebruikmaking van Proximal Policy Optimization (PPO) en varianten daarvan (bijv. GRPO) kampt met drie hardnekkige beperkingen:

Policy Mode Collapse: Beleid convergeert vaak naar een smal scala aan beloningsrijke gedragingen, waarbij het diversiteitsvermogen dat nodig is om het volledige spectrum van menselijke voorkeuren te vatten, wordt opgeofferd.
Inefficiënte Exploratie: Exploratie blijft broos, vooral in schaarse of ruisgevoelige beloningslandschappen, en vertrouwt vaak op heuristieken zoals entropie-bonussen.
Distributional Drift en Instabiliteit: Beleid kan overfitten op fout gespecificeerde beloningsmodellen, wat leidt tot "reward hacking". Bovendien introduceren token-niveau belangrijksheidsratio's in PPO/GRPO ruis met een hoge variantie tijdens de training, wat instabiliteit veroorzaakt in lange sequenties en ad-hoc oplossingen noodzakelijk maakt zoals vaste clipping of KL-schema's.

Huidige benaderingen, zoals GRPO, verbeteren de stabiliteit door middel van gradiëntstraffen, maar missen principiële mechanismen voor diversiteitsbewuste optimalisatie en exploratie.

2. Methodologie: Variational Proximal Policy Optimization (VP2O)

VP2O herformuleert de RLHF-beleidsoptimalisatie als een variational inference probleem. In plaats van proximale controle te behandelen als een scalaire clipping-regel, brengt het het optimalisatieproces in kaart naar Stein Variational Gradient Descent (SVGD) binnen een Mixture-of-Experts (MoE) architectuur.

Kernframework

Variational Reformulatie: Het artikel herformuleert de PPO/GRPO-doelstelling als het minimaliseren van de Kullback-Leibler (KL) divergentie $D_{KL}(\pi_\theta \parallel p^*)$ tussen het huidige beleid $\pi_\theta$ en de optimale beleidsverdeling $p^*$ .
Deeltjesgebaseerde Optimalisatie: De optimale verdeling $p^*$ wordt niet benaderd door een enkel beleid, maar door een ensemble van "deeltjes" (particles). In VP2O worden deze deeltjes gerealiseerd als de individuele experts binnen een ijle (sparse) MoE-laag.
Stein Transport Velden: De optimalisatie maakt gebruik van SVGD om deze expert-deeltjes bij te werken. De update-regel combineert twee krachten:
1. Driving Force (Aandrijvende kracht): Beweegt deeltjes (experts) naar gebieden met een hoge beloning in $p^*$ .
2. Repulsive Force (Afstotende kracht): Voorkomt dat deeltjes inklappen tot een enkele modus, waardoor diversiteit behouden blijft.

Belangrijkste Architecturale Componenten

MoE als Variational Ensemble: Elke expert $i$ in de MoE-laag fungeert als een afzonderlijk beleidscomponent $\pi_{\theta_i}$ . De router $\phi(\cdot)$ selecteert een ijle subset van experts (Top-K) voor elk token.
Functionele Kernels over Prototypes: Om hoogdimensionale parameterruimten aan te kunnen, definieert VP2O een kernel $K$ in de outputruimte in plaats van de parameterruimte. Het onderhoudt een unit-norm prototype $p_i$ voor elke expert (afgeleid van de belangrijkste eigenvector van de output-projectiematrix van de expert). De kernel meet de hoekgelijkenis tussen deze prototypes.
Gedecoupleerd Transportveld: De Stein-update is gedecoupleerd op basis van routing-activiteit:

*   **Attractie:** Co-geactiveerde experts (geselecteerd door de router) delen informatie via kernel-gewogen gradiënt-averaging.
*   **Repulsie:** Inactieve of zelden co-geactiveerde experts worden uit elkaar geduwd via kernel-gradiënttermen om specialisatie te stimuleren.

Expert Orthogonalisatie: Om expert-instorting verder te voorkomen, stimuleert een hulp-loss functie orthogonale expert-representaties, waarbij de projectie van verschillende expert-outputs op elkaar binnen dezelfde Top-K groep wordt geminimaliseerd.
Geometrische Trust Regions: VP2O vervangt vaste clipping en statische KL-straffen door twee geometrie-gebaseerde controles:
1. Anchor Prototype Budget: Beperkt de stapgrootte in de laagdimensionale prototype-ruimte ten opzichte van een "anker"-beleidssnapshot.
2. On-Policy Behavior Budget: Gebruikt event-gestuurde synchronisatie op basis van drift-diagnostiek (KL-divergentie en Effective Sample Size) om het actor-beleid alleen te verversen wanneer dat nodig is, in plaats van op een vast schema.

3. Belangrijkste Bijdragen

SVGD voor RLHF: Het artikel interpreteert KL-geregulariseerde beloningsmaximalisatie als het minimaliseren van $D_{KL}(\pi_\theta \parallel p^*)$ met behulp van Stein Variational Gradient Descent. Dit vervangt de clipping van PPO door kernel-gewogen updates die beloning en diversiteit gezamenlijk optimaliseren.
Gezamenlijke Expert Specialisatie: Introduceert een gespecialiseerde doelstelling die een orthogonaliteits-loss en een routing-diversificatie-loss combineert. Dit zorgt ervoor dat elke expert in de MoE een functioneel verschillend gedrag ontwikkelt, wat de expert-instorting die gebruikelijk is bij standaard PPO/GRPO tegengaat.
Verenigd Framework: Verenigd posterior sampling en beleidsrestricties in VP2O, wat beleid mogelijk maakt dat divers, onzekerheidsbewust en afgestemd is op menselijke voorkeuren zonder te vertrouwen op ad-hoc trust regions.

4. Experimentele Resultaten

De auteurs evalueerden VP2O op een 33B/4B sparse MoE-model (33B totale parameters, 4B actief per token) met 20 experts per laag, waarbij het werd vergeleken met een door GRPO getrainde baseline onder identieke omstandigheden.

Prestatiebenchmarks

Wiskundig Redeneren (AIME): VP2O toonde consistente winst. Op AIME 2024 behaalde het een verbetering van +2,6% bij 8K context en +1,6% bij 16K. Opvallend genoeg convergeerde VP2O ongeveer 2.000 stappen eerder dan de baseline op AIME 2024.
Wetenschappelijk Redeneren (GPQA): Bijna gelijkwaardigheid bij 8K context, maar een duidelijke +1,8% voorsprong bij 16K context, wat suggereert dat diversiteit complexe, meerstaps-taken ondersteunt onder langere generatie-budgetten.
Code Generatie (Codeforces): De meest significante winst verscheen bij 16K context, waar VP2O de baseline overtrof met +179 ELO en +3,6 Pass@1 punten. De auteurs schrijven dit toe aan de afstotende kracht die experts richting structureel verschillende oplossingsstrategieën duwt.
Instructie Opvolging (IFBench/IFEval): VP2O leverde de meest consistente winsten over alle instructie-opvolgingsmetrieken, met verbeteringen variërend van +3,6% tot +5,7%, afhankelijk van de metriek en contextlengte.

Efficiëntie en Tokengebruik

Token Efficiëntie: VP2O demonstreerde verbeterde oplossingsefficiëntie. Op AIME 2025 (8K context) gebruikte het 32% minder tokens (130 minder) terwijl het een hogere nauwkeurigheid behaalde.
Redeneerpatronen: Analyse van "thought tokens" versus "solution tokens" onthulde dat VP2O de neiging heeft om meer te "denken" (meer tussenliggende redeneer-tokens te genereren) maar meer beknopte antwoorden te schrijven, met name bij coding en wiskunde taken.

Trainingsdynamiek

Stabiliteit: VP2O vestigde een stabiel voordeel vanaf de vroege stadia van de training, waarbij de degradatie aan het einde van de training (belonings-overoptimalisatie) die bij de baseline werd waargenomen, werd vermeden.
Convergentie: Het framework vertoonde snellere convergentie, met name in de 16K context setting.

5. Betekenis en Claims

Het artikel claimt dat VP2O een principieel alternatief biedt voor de heuristische restricties (clipping, vaste KL-schema's) die momenteel de RLHF domineren. Door beleidsoptimalisatie te bekijken door de lens van variational inference over een populatie van experts, biedt VP2O:

Vermindering van Afhankelijkheid van Heuristieken: Vervangt ad-hoc clipping door geometrie-gebaseerde proximale controles afgeleid van de data.
Verbeterde Diversiteit: Voorkomt expliciet mode collapse en expert-overlap door Stein afstotende krachten en orthogonaliteitsrestricties.
Verbeterde Long-Form Generatie: De voordelen zijn het meest uitgesproken in langere generatie-contexten (16K tokens), wat suggereert dat het behoud van functionele diversiteit cruciaal is voor het stabiliseren van langdurige reinforcement learning trajecten.

De auteurs merken op dat hoewel de resultaten veelbelovend zijn op een enkele modelfamilie (33B/4B MoE), verdere validatie op grotere schaal (bijv. 70B+) en verschillende modelarchitecturen een openstaande vraag blijft. Het huidige werk richt zich op de effectiviteit van het variational framework bij het stabiliseren en diversifiëren van RLHF-training.

Variational Proximal Policy Optimization