Align and Filter: Improving Performance in Asynchronous On-Policy RL

Dit paper introduceert de Total Variation-based Advantage aligned Constrained policy Optimization (TACPO)-methode om het probleem van beleidsachterstand (policy lag) in asynchrone on-policy versterkingsleer aan te pakken en zo de schaalbaarheid en robuustheid van distributieve training te verbeteren.

Homayoun Honari, Roger Creus Castanyer, Michael Przystupa, Michael Noukhovitch, Pablo Samuel Castro, Glen Berseth

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Leermeester die te snel vooruitloopt

Stel je voor dat je een groep jonge sporters (de AI-agenten) traint om een complexe taak te leren, zoals een robot die loopt of een chatbot die wiskunde oplost.

In een ideale wereld werken ze als een goed georganiseerd orkest:

  1. De sporters doen een oefening.
  2. Ze vertellen direct aan de trainer wat er gebeurde.
  3. De trainer past de instructies direct aan.
  4. De sporters doen de volgende oefening met de nieuwe instructies.

Dit noemen we On-Policy Learning (leren op basis van het huidige beleid). Het werkt goed, maar het is traag.

Het Probleem: De "Verschil in Tempo" (Policy Lag)

Om sneller te leren, zetten we honderden sporters tegelijk aan het werk in een gedistribueerd systeem. Ze werken allemaal parallel. Maar hier ontstaat een probleem, genaamd Policy Lag (beleid-achterstand).

Het werkt zo in de praktijk:

  • De trainer stuurt instructies naar 100 sporters.
  • Sporter A is al klaar en heeft nieuwe data.
  • Sporter B is nog bezig.
  • Sporter C is alweer klaar met de oude instructies, terwijl de trainer intussen alweer nieuwe instructies heeft verzonnen op basis van Sporter A's data.

De trainer leert nu van data die is verzameld met oude instructies, terwijl hij probeert de nieuwe instructies te verbeteren. Het is alsof een chef-kok probeert een nieuw recept te perfectioneren, maar de koks in de keuken gebruiken nog steeds het recept van gisteren. De smaken (de data) kloppen niet meer met het nieuwe recept.

De auteurs van dit paper noemen dit Policy Lag en splitsen het in twee soorten:

  1. Backward Lag (Terugwaartse achterstand): Het verschil tussen de instructies die de sporters kregen en de instructies die de trainer nu heeft. (De data is al "oud" voordat de trainer er zelfs maar mee begint).
  2. Forward Lag (Voorwaartse achterstand): Terwijl de trainer aan het oefenen is met die data, verandert hij de instructies steeds opnieuw. Na 10 rondes van oefenen is de trainer weer vergeten hoe de sporters zich gedroegen in de eerste ronde. De data is dan "verouderd" door de eigen updates van de trainer.

De Oplossing: VACO (Uitlijnen en Filteren)

De auteurs hebben een nieuwe methode bedacht die VACO heet. Ze gebruiken twee slimme trucs om dit probleem op te lossen:

1. De "Tijdmachine" voor Instructies (Advantage Realignment)

  • Het probleem: De trainer kijkt naar de data en denkt: "Deze sporter deed dit omdat hij toen zo'n instructie kreeg." Maar de trainer heeft nu een nieuwe instructie. Hij kan de prestatie van de sporter niet eerlijk beoordelen met zijn nieuwe bril.
  • De oplossing: In plaats van te proberen de data direct aan te passen aan de nieuwste instructie (wat veel rekenkracht kost), kijkt de trainer eerst even terug. Hij zegt: "Oké, deze data is gemaakt met instructie X. Laten we eerst berekenen hoe goed die sporter was volgens instructie X."
  • De Analogie: Stel je voor dat je een verslag schrijft over een voetbalwedstrijd. In plaats van te proberen de spelers te beoordelen met de tactiek van nu (die ze nog niet kenden), schrijf je eerst eerlijk op hoe ze speelden met de tactiek van toen. Pas daarna pas je je oordeel aan. Dit heet Advantage Realignment. Het zorgt ervoor dat de trainer niet in de war raakt door de oude data.

2. De "Scheidsrechter" die selectief fluit (TV Filtering)

  • Het probleem: Als de trainer te veel updates doet op basis van die oude data, raakt hij de draad kwijt. De sporters gaan iets doen dat totaal niet meer past bij wat de trainer nu wil. De "afstand" tussen wat de sporters doen en wat de trainer wil, wordt te groot.
  • De oplossing: De trainer gebruikt een Scheidsrechter (deze meet de Totale Variatie of TV-divergentie).
    • Als de sporters iets doen dat heel dicht bij de huidige instructie ligt, laat de scheidsrechter ze spelen.
    • Als de sporters iets doen dat te ver afwijkt van de huidige instructie (en dat zou de trainer nog meer in de war maken), roept de scheidsrechter: "Stop! Dit stukje data gebruiken we niet voor deze update."
  • Het verschil met oude methoden: Oude methoden (zoals PPO) gebruiken een "knijp-methode" (clipping). Ze zeggen: "Als je te ver afwijkt, knijpen we je gewoon een beetje samen." Dit is als een harde hand die iemand dwingt om in een hokje te blijven.
  • De VACO-methode: De scheidsrechter is slimmer. Hij zegt: "We gebruiken deze specifieke data-punten niet, omdat ze ons verder van het doel afbrengen." Hij verwijdert alleen de "giftige" data en houdt de rest. Dit is zachter en efficiënter.

Wat leverde dit op?

De auteurs hebben dit getest in twee situaties:

  1. Robots (MuJoCo): Robots die lopen of bewegen. Hier bleek dat VACO veel robuuster was. Zelfs als de robots met verouderde instructies werkten, leerden ze sneller en beter dan met de oude methoden.
  2. LLM's (Grote Taalmodellen): Het trainen van AI's om wiskundeproblemen op te lossen. Hier is het trainen vaak erg asynchroon (veel computers werken tegelijk). VACO zorgde ervoor dat de AI's niet "dwaas" werden door de verouderde data, maar juist sneller en stabieler leerden.

Samenvatting in één zin

VACO is een slimme trainingsmethode voor AI die zorgt dat een trainer niet in de war raakt door data van "oude instructies", door eerst de data eerlijk te beoordelen volgens de oude regels en vervolgens alleen de data te gebruiken die nog wel past bij de nieuwe regels.

Kortom: Het maakt asynchroon leren (veel computers tegelijk) veiliger en sneller, zodat de AI niet vastloopt in zijn eigen snelheid.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →