Fibration Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm, slim computerbrein (een Large Language Model of LLM) traint om beter te praten, schrijven en redeneren. Dit brein leert door "beloningen" te krijgen: als het een goed antwoord geeft, krijgt het een puntje; als het een fout maakt, krijgt het een straf.

Het probleem is dat dit brein soms te enthousiast wordt. Het probeert zo hard om punten te scoren, dat het zijn eigen regels breekt en begint te hallucineren of onzin te praten. In de wereld van AI noemen we dit "instabiliteit".

Deze paper introduceert een nieuwe, slimme manier om dit brein te trainen, genaamd FiberPO. Om dit uit te leggen, gebruiken we een paar creatieve metaforen.

1. Het Probleem: De "Te Snelle" Auto

Stel je voor dat je een raceauto traint om een circuit te rijden.

De oude methode (PPO/GRPO): Je hebt een rempedaal dat op elk wiel apart werkt. Als één wiel te hard remt, remt dat wiel. Maar als de hele auto begint te slippen (bijvoorbeeld omdat de weg nat is), reageert de rem niet snel genoeg op de auto als geheel. De auto blijft slippen totdat hij de baan verlaat.
Het nieuwe idee (FiberPO): Je hebt nu niet alleen remmen op de wielen, maar ook een rem op de hele auto, en zelfs een rem op de hele racestroom (alle auto's op het circuit). Je kunt beslissen: "Deze hele groep auto's rijdt te wild, dus we remmen die groep af, maar we laten de individuele wielen wel vrij om kleine correcties te maken."

2. De Oplossing: De "Vezelbundel" (Fiber Bundle)

De auteurs gebruiken een wiskundig concept uit de meetkunde, een vezelbundel, om dit te beschrijven. Laten we dat vertalen naar een Groot Bibliotheekgebouw.

De Boeken (Tokens): Elke zin die het AI-model schrijft, bestaat uit woorden (tokens). In onze bibliotheek zijn dit de individuele boeken op de planken.
De Afdelingen (Trajecten): De boeken staan niet willekeurig; ze staan in specifieke afdelingen (bijvoorbeeld "Wetenschap", "Koken", "Fictie"). Een hele zin of antwoord is een "traject" (een rij boeken).
De Verdiepingen (Domeinen): De afdelingen zitten op verschillende verdiepingen. De "Wetenschap"-verdieping is anders dan de "Kook"-verdieping.

Hoe werkt FiberPO in deze bibliotheek?
Bij de oude methoden keek de bibliothecaris (de AI-trainer) alleen naar één boekje op een moment. Als dat boekje te ver van de plank viel, werd het teruggezet. Maar als alle boeken in de "Wetenschap"-afdeling te wild werden, zag de bibliothecaris dat niet, omdat hij te gefocust was op de individuele boeken.

FiberPO kijkt op drie niveaus tegelijk:

Het Boek (Token-niveau): Is dit specifieke woord te ver van de norm? (De "lokale rem").
De Afdeling (Traject-niveau): Is deze hele zin of dit hele antwoord te wild geworden? (De "globale rem").
De Verdieping (Domein-niveau): Is de hele "Wetenschap"-verdieping uit de hand aan het lopen? (De "super-globale rem").

3. De Magische "Terugkeer" (The Reflecting Condition)

Het slimste aan dit systeem is hoe het de twee niveaus met elkaar verbindt zonder te verwarren.

Stel je voor dat de bibliothecaris een spiegel heeft.

Eerst kijkt hij naar de hele afdeling (de "basis"). Als de afdeling te wild is, geeft hij een signaal: "Remmen!"
Dit signaal wordt via de spiegel teruggekaatst naar de individuele boeken.
De truc: De spiegel zorgt ervoor dat de "wildheid" van de afdeling niet telt als de "wildheid" van het individuele boek.
- Als de hele afdeling wild is, maar een specifiek boek is rustig, krijgt dat boek geen straf. Het mag gewoon blijven staan.
- Als de afdeling rustig is, maar één boek is wild, krijgt dat boek wel een straf.

Dit voorkomt dat je per ongeluk rustige boeken straft omdat de rest van de afdeling gek is (en vice versa). Het zorgt ervoor dat je precies weet waar je moet ingrijpen.

4. Waarom is dit belangrijk?

Efficiëntie: De AI leert sneller omdat hij niet onnodig gestopt wordt. Rustige woorden mogen blijven, alleen de "rotte appels" worden verwijderd.
Stabiliteit: De AI kan nu trainen in complexe situaties (zoals een agent die verschillende tools gebruikt) zonder dat hij in de war raakt. Het systeem houdt de "stabiliteitsbudgetten" gescheiden: als de "Wiskunde"-verdieping uit de hand loopt, hoeft de "Kook"-verdieping niet te worden gestopt.
Flexibiliteit: Omdat dit systeem opgebouwd is uit blokken (zoals LEGO), kun je het makkelijk uitbreiden. Je kunt nu niet alleen kijken naar woorden en zinnen, maar ook naar hele domeinen (bijv. "Code" vs. "Tekst") zonder het hele systeem opnieuw te moeten bouwen.

Samenvatting in één zin

FiberPO is een slimme trainingsmethode voor AI die niet alleen kijkt naar individuele woorden, maar ook naar de hele zin en het hele onderwerp, zodat de AI stabiel blijft leren zonder dat hij onnodig wordt gestopt of in de war raakt door te veel veranderingen tegelijk. Het is alsof je een auto traint met remmen op de wielen, de carrosserie én de motor, die perfect samenwerken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Fibration Policy Optimization" in het Nederlands.

Titel: Fibration Policy Optimization (FiberPO)

Auteurs: Chang Li, Zhihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He (JD Explore Academy & Carleton University)

1. Het Probleem

Grote Taalmodellen (LLM's) worden steeds vaker getraind als heterogene systemen die meerdere domeinen, expert-partities en agent-pipelines omvatten. Bestaande methoden voor Reinforcement Learning from Human Feedback (RLHF), zoals PPO (Proximal Policy Optimization), GRPO en GSPO, opereren echter op één schaal (meestal token-per-token) en missen een principieel mechanisme om stabiliteit te controleren op verschillende hiërarchische niveaus (token, traject, prompt-groep, domein).

De kernuitdagingen zijn:

Multi-schaal instabiliteit: Token-level stochasticiteit, traject-level drift en systeem-level heterogeniteit interageren tijdens één update.
Beperkingen van TRPO: De klassieke Trust Region Policy Optimization (TRPO) theorie faalt in de setting van LLM's waar de disconteringsfactor $\gamma = 1$ is (omdat beloningen pas aan het einde van een respons worden gegeven). De theorema's tonen aan dat bij $\gamma = 1$ de vertrouwensgebiedsradius (trust-region radius) van TRPO naar nul convergeert, wat alleen triviale updates toestaat.
Gebrek aan koppeling: Bestaande methoden koppelen token-level en traject-level stabiliteit niet effectief. PPO/GRPO controleren tokens onafhankelijk zonder traject-drift te begrenzen, terwijl GSPO trajecten tot één aggregaat reduceert en variatie binnen het traject onderdrukt.

2. Methodologie

De auteurs ontwikkelen een algebraïsch raamwerk gebaseerd op Fiber Bundle-theorie (vezelbundeltheorie) om dit probleem op te lossen. De aanpak verloopt in vier fasen:

A. Aggregational Policy Censoring Objective (APC-Obj)

De auteurs leiden eerst een exacte, onbeperkte herschrijving af van sample-based TV-TRPO (Total Variation Trust Region Policy Optimization).

Ze bewijzen dat clip-based surrogate ontwerpen (zoals bij PPO) en trust-region optimalisatie dualistische formuleringen van hetzelfde optimalisatieprobleem zijn.
APC-Obj deconstrueert de trust-region beperking in een expliciete, cross-action gekoppelde vorm. Hoewel APC-Obj zelf bij $\gamma=1$ triviale updates oplevert, biedt het een structurele basis om de clip-mechanisme te scheiden van de specifieke straal, waardoor het mogelijk wordt om de straal als een instelbare hyperparameter ( $\delta$ ) te behandelen.

B. Fiber Bundle Gating (FBG)

Om de kloof tussen token- en traject-niveaus te overbruggen, introduceren ze FBG.

Structuur: RLHF-data wordt georganiseerd als een vezelbundel waar tokens de "total space" vormen en globale contexten (zoals trajecten) de "base space".
Decompositie: FBG splitst ratio-gating op in twee componenten:
1. Base-level gate: Werkt op globale aggregaten (bijv. traject-drift) om een trust-region budget te handhaven.
2. Fiber-level gate: Werkt op per-token residuen (afwijkingen van het trajectgemiddelde) om lokale variatie te controleren.
Reflecterende Voorwaarde: Een cruciaal wiskundig resultaat is de voorwaarde $\pi_E^* \circ K = \text{id}_B$ . Dit zorgt ervoor dat globale en lokale gating op orthogonale componenten werken zonder dubbeling (double-counting) van informatie.

C. Fibration Policy Optimization (FiberPO)

Op basis van APC-Obj en FBG wordt FiberPO afgeleid.

Het doelwit decomposeert de trust-region controle in een base-level aggregate gate (budget $\delta$ ) en een fiber-level logclip (budget $\epsilon$ ).
De Jacobiaan van het doelwit is block-diagonaal over trajecten en reduceert tot de identiteit bij on-policy.
Het introduceert een restorative gradient in het "rollback"-regime: als een traject te veel afwijkt, wordt de gradient actief tegengesteld om het traject terug te duwen naar het on-policy punt, in plaats van de gradient simpelweg op nul te zetten (zoals bij PPO) of uniform te onderdrukken.

D. Fibration Gating Hierarchy (FGH)

Omdat vezelbundels algebraïsch samengesteld kunnen worden, kunnen ze worden uitgebreid tot een hiërarchie.

Dit leidt tot FiberPO-Domain, een instantie met vier niveaus: Domein $\to$ Prompt-groep $\to$ Traject $\to$ Token.
Elk niveau heeft zijn eigen onafhankelijke trust-region budget, wat toestaat om stabiliteit te controleren op elk niveau van de complexiteit zonder nieuwe primitieven te introduceren.

3. Belangrijkste Bijdragen

APC-Obj: De eerste exacte onbeperkte herschrijving van sample-based TV-TRPO, die bewijst dat clipping en trust-regions dualistisch zijn. Dit dient als een analytisch anker om PPO, GRPO en GSPO formeel af te leiden via relaxatiestappen.
Fiber Bundle Gating (FBG) & FGH: Een algebraïsch raamwerk dat globale en lokale stabiliteit koppelt via dichtheids-gating op een vezelbundel. Het garandeert eerste-orde overeenstemming met het echte RL-doelwit nabij de on-policy situatie en schaalbaar naar willekeurige hiërarchische dieptes.
FiberPO-Trajectory: Een concrete implementatie (traject + token) met een block-diagonale Jacobiaan en een unieke "restorative" gradientstructuur die traject-drift actief corrigeert.
FiberPO-Domain: Een vier-niveau instantie die onafhankelijke trust-region budgetten biedt per domein, prompt-groep, traject en token, wat essentieel is voor moderne, heterogene LLM-training.

4. Resultaten en Theoretische Eigenschappen

Eerste-orde overeenstemming: FiberPO herstelt de lineaire surrogate en het echte RL-doelwit exact bij de on-policy punt ( $\theta = \theta_{old}$ ), mits de gating-functies de identiteitsvoorwaarde voldoen.
Stabiliteit bij $\gamma=1$ : Het paper toont aan dat een positieve TV-trust-region straal ( $\delta > 0$ ) effectief stabiliteit kan bieden in LLM-training, ondanks dat de klassieke TRPO-theorie een straal van nul voorspelt.
Token-efficiëntie: Door de "restorative gradient" en de scheiding van globale en lokale signalen, behoudt FiberPO gradiëntinformatie voor goed functionerende tokens zelfs wanneer het traject als geheel drift, wat leidt tot betere token-efficiëntie dan PPO/GRPO.
Decoupling: De methode voorkomt dat globale voorkeuren (bijv. een traject dat over het algemeen beter scoort) de lokale leerkracht van individuele tokens verstoren (bijv. "Colosseum" in een Rome-antwoord krijgt een zwakker signaal dan nodig is puur omdat het traject minder populair is). FiberPO isoleert de lokale associatie van de globale drift.

5. Betekenis en Impact

Dit paper biedt een fundamentele doorbraak in de theorie van RLHF voor LLM's door:

De trust-region theorie te verenigen met een compositional algebraïsche structuur (vezelbundels).
Een oplossing te bieden voor de multi-schaal stabiliteit die nodig is in moderne, complexe agent-systemen en heterogene trainingstaken.
Te bewijzen dat de complexe structuur van vezelbundels niet slechts een wiskundige curiositeit is, maar een noodzakelijke en natuurlijke beschrijving van de afhankelijkheid tussen lokale tokens en globale contexten in RL-data.
Een schaalbaar raamwerk te bieden dat eenvoudig kan worden uitgebreid naar diepere hiërarchieën (zoals domeinen of modale groepen) zonder de onderliggende wiskundige garanties te verliezen.

Kortom, FiberPO transformeert policy optimalisatie van een reeks heuristieken naar een rigoureus, wiskundig onderbouwd raamwerk dat stabiliteit en efficiëntie op alle niveaus van de LLM-architectuur garandeert.