Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Each language version is independently generated for its own context, not a direct translation.

🍳 Le Grand Défi : Apprendre sans cuisiner

Imaginez que vous voulez devenir le meilleur chef du monde (l'Agent ou le Politique). Habituellement, pour apprendre, vous devez goûter, rater, brûler un plat, et recommencer. C'est l'apprentissage par renforcement classique : on essaie, on se trompe, on corrige.

Mais dans le monde réel (les voitures autonomes, la médecine, la finance), on ne peut pas se permettre d'essayer et de rater. On ne peut pas faire exploser une voiture pour voir ce qui se passe. On doit apprendre uniquement en regardant un gros livre de recettes anciennes (les Données Offline).

Le problème ? Ce livre de recettes a été écrit par un autre chef (le Chef Expérimenté ou Comparator). Il a peut-être fait des erreurs, ou il a cuisiné dans une cuisine différente de la vôtre. Comment devenir un bon chef en ne regardant que ses notes, sans jamais toucher à une casserole ?

C'est le cœur du problème de l'Apprentissage par Renforcement Offline.

🗺️ L'ancienne méthode : La carte "État par État" (PSPI)

Les chercheurs précédents avaient une idée brillante : utiliser le pessimisme.
Imaginez que vous avez un assistant (le Critique) qui lit le livre de recettes. Pour chaque situation (ex: "il y a du sel dans la soupe"), l'assistant vous dit : "Attention, selon les recettes, ce plat pourrait être mauvais. On va supposer le pire."

Ensuite, vous ajustez votre stratégie (le Acteur) en suivant une règle mathématique appelée Descente de Miroir.

L'analogie : Imaginez que vous êtes dans une pièce avec des miroirs. Pour chaque pièce de la maison (chaque État), vous ajustez votre posture (votre Action) indépendamment des autres pièces. Si le miroir de la cuisine dit "tournez à gauche", vous tournez à gauche. Si le miroir du salon dit "tournez à droite", vous tournez à droite.

Le problème de cette méthode :

Elle ne marche que pour des choix simples : Si vous avez 3 ingrédients à choisir, c'est facile. Mais si vous avez un contrôle continu (comme la vitesse d'une voiture qui peut être 10,000.5 km/h, 10,000.6 km/h, etc.), cette méthode "pièce par pièce" s'effondre. C'est comme essayer de régler la température d'une pièce avec un interrupteur marche/arrêt au lieu d'un thermostat.
Elle est trop rigide : Elle force votre stratégie à être une simple copie de l'assistant. Vous ne pouvez pas avoir votre propre style de chef (votre propre réseau de neurones ou paramètres). Vous êtes esclave de l'assistant.

🕺 Le nouveau problème : La "Danse Contextuelle" (Contextual Coupling)

Les auteurs de ce papier disent : "Attendez, on veut un chef qui a son propre style (un Politique Paramétré), mais qui apprend du livre ancien."

Ils ont essayé d'appliquer la même règle "miroir" mais en liant toutes les pièces de la maison ensemble. Au lieu d'ajuster chaque pièce séparément, on ajuste un seul bouton central (les paramètres θ) qui contrôle toute la maison.

Le drame (La difficulté principale) :
Imaginez que vous essayez de danser.

Dans la cuisine, la musique vous dit : "Levez le pied gauche".
Dans le salon, la musique vous dit : "Levez le pied droit".
Mais vous n'avez qu'un seul cerveau qui contrôle les deux jambes en même temps (le paramètre unique).

Si vous essayez de satisfaire la cuisine, vous trébuchez dans le salon. Si vous essayez de satisfaire le salon, vous tombez dans la cuisine. C'est ce que les auteurs appellent le "Couplage Contextuel".
Même si l'assistant (le Critique) est parfait, cette méthode de danse globale échoue parce que les besoins des différentes situations (contextes) sont contradictoires pour un seul danseur.

💡 La solution : Le "Compromis Intelligent" (Compatible Function Approximation)

Au lieu d'essayer de satisfaire chaque pièce individuellement (ce qui est impossible), les auteurs proposent de changer de philosophie. Au lieu de regarder chaque miroir séparément, on regarde la moyenne de ce que le livre dit, pondérée par la probabilité de rencontrer ces situations.

Ils utilisent deux nouvelles techniques pour ajuster le bouton central (le chef) :

1. La Régression aux Moindres Carrés (LSPU) : "Le Chef qui fait ses devoirs"

Imaginez que vous voulez trouver la meilleure position pour votre corps qui correspond le mieux à ce que dit le livre de recettes, en moyenne.

Vous prenez toutes les recettes du livre.
Vous cherchez la position (les paramètres) qui minimise l'erreur globale entre ce que vous faites et ce que le livre suggère.
C'est comme résoudre une équation mathématique complexe pour trouver la "moyenne parfaite".
Le résultat : Si le livre est cohérent avec votre style, vous apprenez très vite. Si le livre est bizarre (incompatible), vous avez une petite erreur de base, mais vous ne vous effondrez pas.

2. La Mise à Jour Robuste (DRPU) : "Le Chef qui se protège des surprises"

Parfois, le livre de recettes est écrit dans un style très différent du vôtre. La méthode précédente pourrait être trop optimiste.

Ici, le chef dit : "Je ne vais pas seulement regarder la moyenne. Je vais imaginer le pire scénario possible parmi toutes les façons dont le livre pourrait être biaisé, et je vais préparer ma stratégie pour résister à ce pire cas."
C'est comme un chef qui dit : "Même si le livre dit que le sel est bon, je vais supposer qu'il y a une chance qu'il y ait trop de sel, donc je vais cuisiner de façon à ce que ça reste bon même avec un peu trop de sel."
La surprise géniale : Si le livre de recettes provient exactement du même chef que vous (pas de différence de style), cette méthode de protection se transforme magiquement en Clonage de Comportement. Vous apprenez simplement à copier le chef expert. Cela relie deux mondes qui semblaient séparés : apprendre de ses propres erreurs (RL) et copier un expert (Imitation Learning).

🏆 En résumé : Ce que nous apprennent ces chercheurs

L'ancienne méthode (miroir par pièce) est trop rigide pour les problèmes complexes et continus (comme la conduite autonome).
Essayer de lier tout ensemble (couplage) sans précaution mène à l'échec à cause de conflits internes.
La nouvelle méthode utilise des outils statistiques intelligents (régression et robustesse) pour trouver le meilleur compromis entre ce que le livre dit et ce que votre style permet.
Le résultat : On peut maintenant entraîner des robots ou des IA complexes avec des données passées, même si ces données ne couvrent pas toutes les possibilités, et même si l'IA a sa propre "personnalité" (son propre réseau de neurones).

C'est comme passer d'un apprenti qui suit aveuglément chaque instruction d'un livre, à un chef étoilé qui comprend la logique du livre, s'adapte à sa propre cuisine, et sait quand copier l'expert et quand innover.

Each language version is independently generated for its own context, not a direct translation.

1. Problème et Contexte

L'apprentissage par renforcement hors ligne (Offline RL) vise à apprendre une politique optimale à partir d'un ensemble de données statiques, sans interaction supplémentaire avec l'environnement. Bien que les garanties statistiques théoriques aient été établies pour des approximations de fonctions générales (notamment via des méthodes pessimistes comme PSPI de Xie et al., 2021), ces travaux présentent des limitations majeures :

Espaces d'actions : Les algorithmes existants (comme PSPI) reposent souvent sur une descente de miroir par état (state-wise mirror descent). Cela implique que la distribution d'action pour chaque état est mise à jour indépendamment. Cette approche fonctionne bien pour des espaces d'actions finis et discrets, mais elle échoue ou devient impraticable pour des espaces d'actions continus ou de grande dimension (fréquents en robotique).
Paramétrisation de la politique : Les méthodes actuelles induisent la politique (acteur) implicitement à partir de la fonction de valeur (critique). Elles ne supportent pas les politiques paramétriques autonomes (standalone policy parameterization), c'est-à-dire des réseaux de neurones ou des distributions paramétrées (ex: Gaussiennes) optimisés directement, indépendamment du critique.
Couplage contextuel : Le passage d'une mise à jour par état à une mise à jour globale sur un paramètre $\theta$ partagé introduit un défi théorique appelé "couplage contextuel", qui peut entraîner des regrets constants même avec un critique parfait.

L'objectif de cet article est de combler ce fossé entre la théorie et la pratique en fournissant des garanties théoriques pour l'optimisation de politiques paramétriques dans des espaces d'actions larges ou continus, tout en restant computationnellement efficace.

2. Méthodologie

Les auteurs proposent un cadre unifié basé sur la décomposition du regret et l'approximation de fonction compatible (Compatible Function Approximation - CFA), plutôt que sur la descente de miroir par état.

A. Échec de la Descente de Miroir Contextuelle

Les auteurs démontrent d'abord que l'extension naturelle de la descente de miroir (appelée contextual mirror descent), qui met à jour un paramètre global $\theta$ en minimisant un regret pondéré par la distribution des données, échoue.

Phénomène de couplage contextuel : Même avec un critique précis, l'agrégation des mises à jour par état via une distribution de données $d_D$ (qui diffère de la distribution de la politique de comparaison $d_{\pi_{cp}}$ ) crée un biais systématique.
Résultat de dureté : Ils prouvent qu'il existe des cas où cette méthode subit un regret par étape constant ( $\Omega(1)$ ), rendant la convergence impossible, même en l'absence de bruit statistique.

B. Décomposition du Regret via CFA

Pour contourner ce problème, ils adoptent une approche inspirée du Gradient de Politique Naturel (NPG) et de l'approximation de fonction compatible.

Ils décomposent le regret en trois termes : une erreur d'optimisation, une erreur d'estimation statistique, et un biais intrinsèque dû à l'incompatibilité entre l'acteur et le critique.
La clé est de contrôler l'erreur d'approximation compatible : $err_k = \mathbb{E}_{d_{\pi_{cp}}} [A_k(s, a) - v_k^\top \nabla_\theta \log \pi_k(a|s)]$ , où $v_k$ est le vecteur de mise à jour.

C. Deux Algorithmes Proposés

Sur la base de cette décomposition, deux méthodes de mise à jour de l'acteur sont développées :

Mise à jour par Moindres Carrés (LSPU - Least Square Policy Update) :
- Formule l'erreur d'approximation compatible comme un problème de régression linéaire sans bruit (ou avec bruit de modélisation).
- Minimise la perte quadratique $\mathbb{E}_{d_D} [(A_k - v^\top \nabla \log \pi_k)^2]$ .
- Avantage : Exploite les propriétés statistiques favorables de la régression linéaire.
- Limitation : La perte quadratique est une relaxation de l'erreur linéaire réelle et peut être lâche si l'erreur d'approximation est hétérogène.
Mise à jour de Politique Robuste Distributionnellement (DRPU - Distributionally Robust Policy Update) :
- Aborde directement l'erreur linéaire en utilisant l'optimisation robuste distributionnelle (DRO).
- Formule le problème comme un minimax : minimiser le pire cas de l'erreur pondérée sur une classe de poids $W$ (représentant les ratios de densité possibles entre $d_{\pi_{cp}}$ et $d_D$ ).
- Utilise une représentation duale basée sur la Conditional Value-at-Risk (CVaR) pour rendre le problème computationnellement traitable (programmation linéaire ou SOCP).
- Avantage : Plus robuste à l'incompatibilité acteur-critique et gère mieux les décalages de distribution.

3. Contributions Clés

Extension aux espaces d'actions continus : Les auteurs étendent les garanties de regret de PSPI aux espaces d'actions continus via des arguments de théorie de la mesure, en remplaçant le logarithme de la cardinalité par une divergence de Kullback-Leibler (KL).
Identification du "Couplage Contextuel" : Ils identifient et prouvent formellement que la descente de miroir contextuelle naïve échoue en raison d'un biais systématique induit par la distribution de données, même avec des hypothèses idéales.
Cadre unifié Actor-Critic : Ils proposent un cadre théorique basé sur l'approximation de fonction compatible qui sépare clairement les erreurs d'optimisation, d'estimation et d'approximation (biais).
Unification RL Hors Ligne et Apprentissage par Imitation : Dans le cas où la distribution de données coïncide avec celle de la politique de comparaison ( $d_D = d_{\pi_{cp}}$ ), la méthode DRPU se réduit à un problème d'appariement des moyennes (mean-matching), qui est équivalent à l'apprentissage par comportement (Behavior Cloning). Cela établit un lien théorique surprenant entre le RL hors ligne pessimiste et l'apprentissage par imitation.

4. Résultats Théoriques

Les auteurs établissent des bornes de regret pour leurs algorithmes (LSPU et DRPU) sous des hypothèses standard de couverture de données et de régularité des politiques :

Décomposition du regret : Le regret moyen $\frac{1}{K} Reg_K$ est borné par :
$\text{Regret} \lesssim \underbrace{\sqrt{\frac{1}{K}}}_{\text{Erreur d'optimisation}} + \underbrace{\sqrt{\text{Biais}_{CFA}}}_{\text{Incompatibilité Acteur-Critique}} + \underbrace{\sqrt{\frac{C}{N}}}_{\text{Erreur d'estimation statistique}}$
où $C$ est le coefficient de couverture (concentrability) et $N$ la taille de l'échantillon.
Performance de LSPU : Garantit une convergence avec un taux de $O(1/\sqrt{N})$ pour l'erreur statistique, mais dépend fortement de l'incompatibilité $\epsilon_{CFA}$ .
Performance de DRPU : Offre une robustesse accrue. Sous la classe de poids $W_\infty$ (ratio de densité borné), le terme d'erreur statistique est de l'ordre de $O(\sqrt{C/N})$ , améliorant la dépendance au coefficient de couverture par rapport aux méthodes classiques.
Cas bien spécifié : Si l'acteur et le critique sont compatibles ( $\epsilon_{CFA}=0$ ), les algorithmes convergent vers la politique de comparaison avec un taux optimal.

5. Signification et Impact

Cet article est significatif pour plusieurs raisons :

Pratique : Il valide théoriquement l'utilisation de politiques paramétriques complexes (comme les réseaux de neurones) dans des contextes hors ligne avec des espaces d'actions continus, une configuration omniprésente en robotique et en contrôle industriel.
Théorique : Il résout le paradoxe selon lequel les garanties statistiques existantes ne s'appliquaient pas aux méthodes computationnelles pratiques. En identifiant le "couplage contextuel", il redirige la recherche vers des méthodes basées sur le gradient naturel et l'approximation compatible.
Unification : La découverte que le DRPU se réduit au Behavior Cloning dans un régime sans décalage de distribution offre une perspective unifiée sur l'apprentissage par renforcement et l'apprentissage par imitation, suggérant que le pessimisme et l'imitation sont deux faces d'une même médaille dans des conditions spécifiques.

En résumé, ce travail fournit les fondations théoriques nécessaires pour déployer des algorithmes d'optimisation de politique hors ligne robustes et efficaces sur des problèmes réels complexes, en dépassant les limitations des approches basées uniquement sur la descente de miroir par état.