Align and Filter: Improving Performance in Asynchronous On-Policy RL

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Leermeester die te snel vooruitloopt

Stel je voor dat je een groep jonge sporters (de AI-agenten) traint om een complexe taak te leren, zoals een robot die loopt of een chatbot die wiskunde oplost.

In een ideale wereld werken ze als een goed georganiseerd orkest:

De sporters doen een oefening.
Ze vertellen direct aan de trainer wat er gebeurde.
De trainer past de instructies direct aan.
De sporters doen de volgende oefening met de nieuwe instructies.

Dit noemen we On-Policy Learning (leren op basis van het huidige beleid). Het werkt goed, maar het is traag.

Het Probleem: De "Verschil in Tempo" (Policy Lag)

Om sneller te leren, zetten we honderden sporters tegelijk aan het werk in een gedistribueerd systeem. Ze werken allemaal parallel. Maar hier ontstaat een probleem, genaamd Policy Lag (beleid-achterstand).

Het werkt zo in de praktijk:

De trainer stuurt instructies naar 100 sporters.
Sporter A is al klaar en heeft nieuwe data.
Sporter B is nog bezig.
Sporter C is alweer klaar met de oude instructies, terwijl de trainer intussen alweer nieuwe instructies heeft verzonnen op basis van Sporter A's data.

De trainer leert nu van data die is verzameld met oude instructies, terwijl hij probeert de nieuwe instructies te verbeteren. Het is alsof een chef-kok probeert een nieuw recept te perfectioneren, maar de koks in de keuken gebruiken nog steeds het recept van gisteren. De smaken (de data) kloppen niet meer met het nieuwe recept.

De auteurs van dit paper noemen dit Policy Lag en splitsen het in twee soorten:

Backward Lag (Terugwaartse achterstand): Het verschil tussen de instructies die de sporters kregen en de instructies die de trainer nu heeft. (De data is al "oud" voordat de trainer er zelfs maar mee begint).
Forward Lag (Voorwaartse achterstand): Terwijl de trainer aan het oefenen is met die data, verandert hij de instructies steeds opnieuw. Na 10 rondes van oefenen is de trainer weer vergeten hoe de sporters zich gedroegen in de eerste ronde. De data is dan "verouderd" door de eigen updates van de trainer.

De Oplossing: VACO (Uitlijnen en Filteren)

De auteurs hebben een nieuwe methode bedacht die VACO heet. Ze gebruiken twee slimme trucs om dit probleem op te lossen:

1. De "Tijdmachine" voor Instructies (Advantage Realignment)

Het probleem: De trainer kijkt naar de data en denkt: "Deze sporter deed dit omdat hij toen zo'n instructie kreeg." Maar de trainer heeft nu een nieuwe instructie. Hij kan de prestatie van de sporter niet eerlijk beoordelen met zijn nieuwe bril.
De oplossing: In plaats van te proberen de data direct aan te passen aan de nieuwste instructie (wat veel rekenkracht kost), kijkt de trainer eerst even terug. Hij zegt: "Oké, deze data is gemaakt met instructie X. Laten we eerst berekenen hoe goed die sporter was volgens instructie X."
De Analogie: Stel je voor dat je een verslag schrijft over een voetbalwedstrijd. In plaats van te proberen de spelers te beoordelen met de tactiek van nu (die ze nog niet kenden), schrijf je eerst eerlijk op hoe ze speelden met de tactiek van toen. Pas daarna pas je je oordeel aan. Dit heet Advantage Realignment. Het zorgt ervoor dat de trainer niet in de war raakt door de oude data.

2. De "Scheidsrechter" die selectief fluit (TV Filtering)

Het probleem: Als de trainer te veel updates doet op basis van die oude data, raakt hij de draad kwijt. De sporters gaan iets doen dat totaal niet meer past bij wat de trainer nu wil. De "afstand" tussen wat de sporters doen en wat de trainer wil, wordt te groot.
De oplossing: De trainer gebruikt een Scheidsrechter (deze meet de Totale Variatie of TV-divergentie).
- Als de sporters iets doen dat heel dicht bij de huidige instructie ligt, laat de scheidsrechter ze spelen.
- Als de sporters iets doen dat te ver afwijkt van de huidige instructie (en dat zou de trainer nog meer in de war maken), roept de scheidsrechter: "Stop! Dit stukje data gebruiken we niet voor deze update."
Het verschil met oude methoden: Oude methoden (zoals PPO) gebruiken een "knijp-methode" (clipping). Ze zeggen: "Als je te ver afwijkt, knijpen we je gewoon een beetje samen." Dit is als een harde hand die iemand dwingt om in een hokje te blijven.
De VACO-methode: De scheidsrechter is slimmer. Hij zegt: "We gebruiken deze specifieke data-punten niet, omdat ze ons verder van het doel afbrengen." Hij verwijdert alleen de "giftige" data en houdt de rest. Dit is zachter en efficiënter.

Wat leverde dit op?

De auteurs hebben dit getest in twee situaties:

Robots (MuJoCo): Robots die lopen of bewegen. Hier bleek dat VACO veel robuuster was. Zelfs als de robots met verouderde instructies werkten, leerden ze sneller en beter dan met de oude methoden.
LLM's (Grote Taalmodellen): Het trainen van AI's om wiskundeproblemen op te lossen. Hier is het trainen vaak erg asynchroon (veel computers werken tegelijk). VACO zorgde ervoor dat de AI's niet "dwaas" werden door de verouderde data, maar juist sneller en stabieler leerden.

Samenvatting in één zin

VACO is een slimme trainingsmethode voor AI die zorgt dat een trainer niet in de war raakt door data van "oude instructies", door eerst de data eerlijk te beoordelen volgens de oude regels en vervolgens alleen de data te gebruiken die nog wel past bij de nieuwe regels.

Kortom: Het maakt asynchroon leren (veel computers tegelijk) veiliger en sneller, zodat de AI niet vastloopt in zijn eigen snelheid.

Each language version is independently generated for its own context, not a direct translation.

Titel: Align and Filter: Verbetering van Prestaties in Asynchrone On-Policy RL

1. Het Probleem: Beleidslag (Policy Lag)

Distributie van trainingsdata en het verhogen van de frequentie van gradiëntupdates zijn cruciale strategieën om het leren in versterkend leren (RL) te versnellen. Echter, deze benaderingen verergeren een centraal probleem: beleidslag (policy lag). Dit is het mismatch tussen het gedragsbeleid (behavior policy) dat de data genereert en het leerbeleid (learning policy) dat wordt bijgewerkt.

De auteurs identificeren twee bronnen van deze lag in asynchrone omgevingen:

Backward Policy Lag: Ontstaat door de initiële mismatch tussen het gedragsbeleid en het leerbeleid. In asynchrone systemen (waarbij data wordt verzameld door meerdere agents die op verschillende versies van het beleid draaien) is de data-distributie een mengsel van oude beleidsversies, terwijl het leerbeleid al is bijgewerkt.
Forward Policy Lag: Accumuleert tijdens het trainingsproces zelf. Wanneer er meerdere gradiëntupdates worden uitgevoerd op dezelfde batch data, divergeert het leerbeleid steeds verder van de oorspronkelijke data-distributie.

Deze lag schendt de fundamentele aanname van on-policy algoritmen (zoals PPO) dat data en het huidige beleid overeenkomen, wat kan leiden tot prestatiedalingen of zelfs het volledig instorten van het beleid (policy collapse).

2. Methodologie: VACO

Om deze problemen aan te pakken, stellen de auteurs VACO (Total Variation-based Advantage aligned Constrained policy Optimization) voor. De methode bestaat uit twee kerncomponenten:

A. Advantage Realignment (Heruitlijning van het Voordeel)

Doel: Het oplossen van backward policy lag.
Methode: In plaats van het voordeel (advantage) te schatten op basis van het verouderde gedragsbeleid ( $\beta_T$ ), schatten ze het voordeel voor het initiële leerbeleid ( $\pi_T$ ) dat aan het begin van de trainingsronde staat.
Techniek: Ze gebruiken een aangepaste versie van de V-trace methode (oorspronkelijk uit IMPALA). In tegenstelling tot IMPALA, dat het voordeel continu herrekent bij elke stap (wat rekenkundig duur is), berekent VACO het voordeel slechts één keer voor het initiële beleid en gebruikt dit als een vast doel voor de iteratieve optimalisatie. Dit maakt de methode computatie-efficiënter en robuuster tegen schattingsfouten.

B. TV-divergentie-gebaseerde Filtering

Doel: Het oplossen van forward policy lag en het voorkomen van te grote afwijkingen van de data-distributie.
Methode: In plaats van te vertrouwen op "clipping" (zoals in PPO) of een strakke KL-divergentie-beperking, gebruiken ze de Totale Variatie (TV) divergentie als maatstaf.
Mechanisme: Voor elke minibatch wordt de verwachte TV-divergentie tussen het huidige beleid en het gedragsbeleid berekend.
- Als de divergentie onder de drempelwaarde ( $\delta$ ) blijft, worden alle datapunten gebruikt.
- Als de divergentie de drempel overschrijdt, worden de gradiënten van specifieke datapunten gedetacheerd (verwijderd) die bijdragen aan een verdere toename van de divergentie.
- Concreet: datapunten waarbij het teken van het voordeel ( $A$ ) en het teken van de verandering in waarschijnlijkheid ( $\pi - \beta$ ) hetzelfde zijn (wat de divergentie vergroot), worden gefilterd.
Voordeel: Dit biedt een strakke, niet-parametrische manier om de constraint te handhaven zonder de complexiteit van Lagrange-multiplicatoren of het kiezen van extra hyperparameters voor constraint satisfaction.

3. Belangrijkste Bijdragen

Theoretische Analyse: Een gedetailleerde categorisering van beleidslag in backward (initiële mismatch) en forward (accumulatie tijdens updates), met een theoretische onderbouwing van hoe deze de prestatielimiet beïnvloeden via de prestatieverschillemma's.
Nieuw Algoritme (VACO): Een praktische oplossing die Advantage Realignment combineert met TV-filtering om asynchrone on-policy RL te stabiliseren.
Efficiëntie: VACO vermijdt de hoge rekenkosten van continue herberekening van voordelen (zoals bij IMPALA) en biedt een efficiëntere manier om constraints op te leggen dan traditionele KL-regularisatie.

4. Resultaten

De auteurs hebben VACO gevalideerd in twee zeer verschillende scenario's:

Robotica (MuJoCo):
- In een gesimuleerde asynchrone omgeving met verschillende niveaus van parallelisme.
- Resultaat: VACO toont aanzienlijk betere robustheid tegen backward policy lag vergeleken met standaard PPO (met en zonder KL-straf) en SPO. Het behoudt hogere mediane scores en een lagere optimaliteitskloof (optimality gap) zelfs bij hoge mate van asynchroniciteit.
- VACO toont ook betere sample-efficiency (gemeten via IQM-waarden) tijdens het trainingsproces.
LLM Redeneren (RL voor Large Language Models):
- Toepassing op het finetunen van een Qwen 2.5 (0.5B) model voor wiskundig redeneren (GSM8k) met verifieerbare beloningen (RLVR).
- Resultaat: In asynchrone RLVR-setup (waarbij data wordt gegenereerd met een beleid dat achterloopt op het trainingsbeleid), degradeert de prestatie van standaard PPO-clip snel naarmate de lag toeneemt. VACO behoudt echter hoge prestaties bij grote lag.
- Analyse: PPO-clip "clipt" constant en agressief bij hoge lag, wat nuttige updates blokkeert. VACO filtert selectiever en laat meer batches toe om bij te dragen aan het leren, terwijl het toch stabiliteit garandeert door de TV-divergentie te controleren.

5. Betekenis en Impact

Dit werk is significant omdat het een praktische oplossing biedt voor een van de grootste beperkingen in moderne RL: het schalen van on-policy algoritmen naar grote, gedistribueerde systemen.

Toepasbaarheid: De methode is direct toepasbaar op complexe real-world scenario's zoals robotbesturing en het trainen van grote taalmodellen, waar asynchrone training noodzakelijk is vanwege systeemcomplexiteit en latency.
Stabiliteit vs. Snelheid: VACO lost het fundamentele compromis op tussen trainings snelheid (door asynchrone updates) en stabiliteit (door beleidslag), waardoor het mogelijk wordt om sneller te trainen zonder dat de kwaliteit van het beleid instort.
Theoretische Inzicht: Het paper biedt een helder theoretisch kader om beleidslag te begrijpen en te kwantificeren, wat de basis legt voor toekomstige verbeteringen in efficiënt RL.

Kortom, VACO stelt onderzoekers en ingenieurs in staat om asynchrone on-policy RL-systemen te bouwen die schaalbaar, stabiel en robuust zijn, zelfs wanneer de data-distributie significant afwijkt van het huidige beleid.