Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Each language version is independently generated for its own context, not a direct translation.

De Grote Droom: Leren van Verleden Ervaringen

Stel je voor dat je een nieuwe sport wilt leren, maar je mag niet zelf oefenen. Je mag alleen kijken naar video's van een professionele atleet die in het verleden heeft getraind. Dit noemen we Offline Reinforcement Learning. Je moet een goede strategie bedenken door alleen naar die oude beelden te kijken, zonder zelf de bal te raken.

Het probleem is: wat als de atleet op de video alleen maar op zonnige dagen heeft getraind, maar jij moet nu spelen in de regen? Of wat als de atleet alleen maar met zijn rechterhand heeft geworpen, maar jij moet leren met beide handen?

Het Oude Probleem: De "Per Staat" Methode

Vroeger hadden wetenschappers een slimme methode bedacht (genaamd PSPI) om hiermee om te gaan. Ze dachten als volgt:
"Laten we voor elke mogelijke situatie (bijvoorbeeld: 'het regent' of 'de zon schijnt') apart een kleine beslissing nemen."

Dit werkt als een reuzen-puzzel waarbij je elk stukje (elke situatie) los van elkaar probeert te leggen.

Het nadeel: In de echte wereld zijn er oneindig veel situaties (bijvoorbeeld: een robotarm kan op oneindig veel manieren bewegen). Je kunt niet voor elke mogelijke hoek van een robotarm een los stukje puzzel hebben.
Het andere nadeel: Deze methode dwingt je om de "beslissing" (de actor) volledig af te leiden van de "waarde-inschatting" (de critic). Het is alsof je zegt: "Ik kan mijn eigen strategie niet zelf bedenken, ik moet die puur laten afhangen van wat ik denk dat de score is." In de praktijk werken mensen (en AI) vaak met een apart brein voor strategie en een apart brein voor het beoordelen van de situatie. De oude methode paste hier niet bij.

De Nieuwe Uitdaging: De "Contextuele Koppeling"

De auteurs van dit paper zeggen: "Laten we stoppen met elke situatie los te behandelen. Laten we een standaard strategie hebben die we overal toepassen, zoals een mens die een paar algemene regels heeft."

Maar hier komt de valkuil: Contextuele Koppeling.
Stel je voor dat je een leraar bent die een klas van 100 leerlingen heeft.

De oude methode (Mirror Descent) zegt: "Leerling A, jij doet dit. Leerling B, jij doet dat." Ze behandelen iedereen als een losse entiteit.
De nieuwe methode zegt: "We hebben één leraar (de strategie) die één set instructies heeft voor de hele klas."

Het probleem is dat als je de instructies voor de hele klas aanpast op basis van de resultaten van slechts een paar leerlingen (de data die je hebt), je per ongeluk de instructies voor alle leerlingen verandert. Als je de klas aanpast aan de leerlingen die je hebt gezien, maar je vergeet dat er andere leerlingen zijn die je niet hebt gezien, maak je een fout. De auteurs noemen dit Contextuele Koppeling: het aanpassen van één parameter (de leraar) beïnvloedt alles tegelijk, en dat kan leiden tot systematische fouten als je data niet perfect is.

De Oplossing: Twee Nieuwe Manieren om te Leren

De auteurs bedachten twee nieuwe manieren om deze "leraar" (de strategie) bij te stellen, zodat je toch een goede prestatie haalt, zelfs als je data imperfect is.

1. LSPU: De "Rekenmeester" (Kwadratische Regressie)

Stel je voor dat je een leraar bent en je wilt weten hoe goed je instructies zijn. Je kijkt naar de resultaten van je leerlingen en zegt: "Hoe kan ik mijn instructies zo aanpassen dat ze het beste lijken op wat de beste leerlingen deden?"

Ze gebruiken een wiskundige techniek (minste-kwadraten) om een lijn te trekken door de punten.

De kracht: Het is snel en efficiënt.
Het risico: Het werkt alleen goed als de "leraar" en de "beoordelaar" (de critic) goed met elkaar kunnen praten. Als ze verschillende talen spreken (incompatibiliteit), kan de rekenmeester een foutieve lijn trekken die er goed uitziet, maar in feite verkeerd is.

2. DRPU: De "Voorzichtige Voorzitter" (Distributionally Robust)

Deze methode is slimmer en voorzichtig. Stel je voor dat je een voorzitter bent die een vergadering leidt. Je weet niet precies wie er allemaal in de zaal zit (de echte wereld), maar je hebt een lijst met mensen die er zouden kunnen zijn.

In plaats van te zeggen: "Ik pas mijn plan aan voor de mensen die ik nu zie," zegt de voorzitter: "Ik pas mijn plan aan voor het slechtst mogelijke scenario binnen de groep mensen die ik zie."
Dit heet Distributionally Robust Optimization. Je bent voorbereid op het ergste.
Het verrassende resultaat: Als je geluk hebt en de mensen in de zaal zijn precies dezelfde als die in je vergadering (geen verschil tussen data en werkelijkheid), dan verandert deze complexe methode plotseling in iets heel simpels: Behavior Cloning. Dat is gewoon "kijken en nabootsen". Het paper laat zien dat Offline RL (leren van data) en Imitation Learning (nabootsen) eigenlijk twee kanten van dezelfde medaille zijn.

Waarom is dit belangrijk?

Vroeger dachten wetenschappers dat je voor complexe taken (zoals een robot laten lopen of een zelfrijdende auto besturen) je strategie per situatie moest optimaliseren. Dit paper zegt: "Nee, dat werkt niet goed als je een apart 'brein' voor strategie hebt."

Ze tonen aan dat je:

Een aparte strategie kunt hebben (zoals in de echte wereld).
Toch kunt leren van oude data zonder zelf te oefenen.
Dit kunt doen met wiskundige garanties dat het werkt, zelfs als de data niet perfect is.

Samenvatting in één zin

De auteurs hebben een nieuwe manier bedacht om AI te leren van oude data, waarbij ze een valkuil (de "koppeling" tussen situaties) omzeilen door twee slimme methoden te gebruiken: één die als een rekenmeester werkt en één die als een voorzichtig voorzitter, waardoor ze eindelijk theorie en praktijk kunnen verenigen voor complexe, continue taken.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het artikel richt zich op Offline Reinforcement Learning (RL) onder generale functiesbenadering (general function approximation). Het doel is om een goede policy te leren uit een vast dataset zonder interactie met de omgeving.

Hoewel er theoretisch bewezen is dat pessimisme (pessimism) leidt tot sterke statistische garanties voor het leren van een policy, zijn de bestaande algoritmen die dit doen vaak niet computationeel haalbaar voor grote of continue actie-ruimten. Een specifiek voorbeeld is het PSPI-algoritme (Pessimistic Soft Policy Iteration) van Xie et al. (2021).

De kernproblemen met bestaande methoden zoals PSPI zijn:

Beperking tot eindige actie-ruimten: De theoretische garanties van PSPI hangen af van de logaritme van de grootte van de actie-ruimte ( $\log |A|$ ), wat niet werkt voor continue actie-ruimten (zoals in robotica).
State-wise Mirror Descent: PSPI gebruikt een update-mechanisme waarbij de actie-verdeling in elke staat onafhankelijk wordt bijgewerkt. Dit betekent dat de actor (policy) impliciet wordt afgeleid van de critic-functies en geen eigen, losstaande parametrisatie (bijv. een apart neurale netwerk voor de actor) kan hebben. In de praktijk worden echter bijna altijd standalone parametrische policies gebruikt.

Het artikel probeert de kloof tussen theorie en praktijk te dichten door theoretische garanties uit te breiden naar parametrische policy-klassen over grote of continue actie-ruimten, terwijl de actor een eigen parametrisatie behoudt.

2. Methodologie en Kerninzichten

De auteurs analyseren de uitdagingen bij het toepassen van mirror descent op parametrische policies en ontwikkelen nieuwe methoden om deze te overwinnen.

A. Contextuele Koppeling (Contextual Coupling)

De auteurs identificeren contextuele koppeling als de fundamentele moeilijkheid.

In PSPI wordt mirror descent per staat uitgevoerd (state-wise), wat onafhankelijke garanties biedt.
Bij een standalone parametrische policy ( $\pi_\theta$ ) worden alle staten gekoppeld via de gedeelde parameter $\theta$ .
De auteurs bewijzen (via een hardheidresultaat in Propositie 2) dat het simpelweg "contextualiseren" van mirror descent (d.w.z. het uitvoeren van mirror descent over de data-verdeling $d_D$ in plaats van de comparator-verdeling $d_{\pi_{cp}}$ ) leidt tot een constante per-stap regret, zelfs als de critic perfect is. Dit komt door de discrepantie tussen de data-verdeling en de bezochte verdeling van de comparator, wat via de gedeelde parameters systematische fouten introduceert.

B. Regret Decompositie via Compatibele Functiebenadering (CFA)

Om dit probleem op te lossen, verlaten de auteurs de directe mirror-descent benadering en gebruiken ze een regret-decompositie lemma gebaseerd op Compatibele Functiebenadering (Compatible Function Approximation - CFA).

In plaats van de policy direct te updaten via mirror descent, wordt de update vector $v_k$ ontworpen om de linearisatie van de advantage-functie te benaderen.
De regret wordt opgesplitst in een optimalisatiefout, een statistische schattingsfout en een bias-term veroorzaakt door de incompatibiliteit tussen de actor en de critic (als de advantage-functie niet perfect lineair benaderd kan worden door de gradients van de policy).

3. Twee Nieuwe Algoritmen

Op basis van de bovenstaande analyse stellen de auteurs twee nieuwe actor-updates voor die statistisch en computationeel efficiënt zijn:

1. Least-Squares Policy Update (LSPU)

Principe: Deze methode behandelt het vinden van de update-vector $v_k$ als een lineaire regressie probleem. De doelstelling is om de advantage-functie $A_k$ te benaderen met een lineaire combinatie van de policy-gradients $\nabla_\theta \log \pi_k$ .
Implementatie: Het lost een minste-kwadraten probleem op over de offline data-verdeling $d_D$ .
Garantie: De regret-grens bevat een term voor de actor-critic incompatibiliteit ( $\epsilon_{CFA}$ ). Als de actor en critic compatibel zijn (bijv. bij log-lineaire policies met dezelfde features), verdwijnt deze bias.
Relatie: Dit is een offline variant van de Natural Policy Gradient (NPG), maar berekend op de offline data zonder importance weighting (omdat de regressiestructuur dit toelaat via de dekking-conditie).

2. Distributionally Robust Policy Update (DRPU)

Principe: LSPU gebruikt een kwadratische loss, wat een relaxatie is van de lineaire fout. DRPU probeert de lineaire fout direct te minimaliseren door Distributionally Robust Optimization (DRO) toe te passen.
Methode: De fout onder de onbekende verdeling $d_{\pi_{cp}}$ wordt uitgedrukt als een verwachting onder $d_D$ met een gewichtsfactor (importance weight). Omdat de ware gewichten onbekend zijn, wordt een robuste loss geminimaliseerd over een klasse van mogelijke gewichten (bijv. een $L_\infty$ -bal van dichtheidsverhoudingen).
Computation: De robuuste loss kan worden herschreven als een Conditional Value-at-Risk (CVaR) probleem, wat efficiënt opgelost kan worden via lineaire programmering (LP) of SOCP.
Voordeel: DRPU is robuuster tegen actor-critic incompatibiliteit dan LSPU.

4. Belangrijkste Resultaten en Theorema's

Theorema 1 (PSPI met continue ruimten): De auteurs tonen aan dat PSPI kan worden uitgebreid naar continue actie-ruimten via maattheoretische argumenten, waarbij de regret-grens afhangt van de KL-divergentie in plaats van $\log |A|$ .
Propositie 2 (Hardheid): Bewijst dat naaive contextual mirror descent faalt (constante regret) door contextuele koppeling, zelfs bij perfecte data-dekking.
Theorema 4 (LSPU): Biedt een regret-grens voor LSPU die bestaat uit drie delen: optimalisatiefout, bias door incompatibiliteit, en statistische schattingsfout ( $O(\sqrt{C/N})$ ).
Theorema 5 (DRPU): Biedt een vergelijkbare regret-grens voor DRPU, maar met een betere afhankelijkheid van de dekking-constante $C$ (van $C$ naar $\sqrt{C}$ ) dankzij de CVaR-structuur.
Unificatie van Offline RL en Imitatie Learning: Een verrassend resultaat is dat wanneer de data-verdeling $d_D$ overeenkomt met de comparator-verdeling $d_{\pi_{cp}}$ (geen distributieshift), de DRPU-methode reduceert tot Behavior Cloning. Dit biedt een theoretische unificatie tussen offline RL en imitatie learning.

5. Significantie en Impact

Dit werk is significant voor de volgende redenen:

Overbrugging van Theorie en Praktijk: Het biedt de eerste theoretische garanties voor offline RL met standalone parametrische policies (zoals neurale netwerken) in continue actie-ruimten, een setting die dominant is in de praktijk maar eerder theoretisch onopgelost was.
Identificatie van een Fundamenteel Belemmering: Het introduceert het concept van contextuele koppeling als de oorzaak van het falen van eerdere mirror-descent benaderingen in parametrische settings.
Nieuwe Algoritmen: Het introduceert LSPU en DRPU als praktische, wiskundig onderbouwde methoden die de actor-critic incompatibiliteit expliciet aanpakken.
Theoretische Unificatie: Het laat zien dat imitatie learning (behavior cloning) een speciaal geval is van offline RL onder specifieke omstandigheden, wat inzicht geeft in de relatie tussen deze twee velden.

Kortom, het artikel levert een cruciale stap voorwaarts in het begrijpen en optimaliseren van offline RL voor complexe, continue controleproblemen met flexibele policy-architecturen.