Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous apprenez à conduire une voiture autonome dans une ville très complexe. Votre objectif est double : aller aussi vite que possible (maximiser les récompenses) tout en respectant scrupuleusement les limites de vitesse et les feux rouges (respecter les contraintes de sécurité).

Le problème, c'est que dans le monde réel, vous ne connaissez pas parfaitement la carte au début. Vous devez apprendre en conduisant.

Le Dilemme des Anciens Méthodes

Jusqu'à présent, les algorithmes d'apprentissage automatique se trouvaient face à un choix difficile, un "trilemme" :

Être très prudent : Ils évitaient les accidents, mais allaient si lentement qu'ils ne finissaient jamais leur course (mauvaise performance).
Être très rapide : Ils allaient vite, mais enfreignaient parfois les règles. La théorie disait : "Ne vous inquiétez pas, si vous avez dépassé la vitesse de 10 km/h hier, vous roulerez à 10 km/h de moins demain, donc la moyenne est bonne."
- Le problème : Dans la vraie vie, un accident grave (comme un feu rouge franchi) ne peut pas être "annulé" par une conduite prudente le lendemain. Une seule erreur peut être catastrophique.
L'instabilité : Les méthodes rapides oscillaient comme un pendule, passant d'une extrême prudence à une extrême imprudence, rendant le système imprévisible.

La Solution : FlexDOME (Le "Cocon de Sécurité Dynamique")

Les auteurs de cet article proposent une nouvelle méthode appelée FlexDOME. Pour comprendre comment ça marche, utilisons une analogie simple.

1. Le "Cocon de Sécurité" (La Marge de Sécurité)

Imaginez que vous apprenez à conduire avec un moniteur. Au début, quand vous êtes novice et que vous ne connaissez pas la ville, le moniteur vous dit : "Ne t'approche pas à moins de 50 mètres de la bordure de la route, même si la limite est de 10 mètres."

C'est ce qu'on appelle une marge de sécurité.

Au début (Incertitude élevée) : La marge est énorme. Vous conduisez au centre de la route, très loin de tout danger. C'est très sûr, mais un peu lent.
Au fur et à mesure (Apprentissage) : Plus vous connaissez la ville, plus le moniteur réduit cette marge. "Maintenant que vous connaissez ce virage, vous pouvez vous approcher à 20 mètres."
À la fin (Expertise) : La marge devient minuscule, vous permettant de rouler à la vitesse optimale, juste à la limite de la sécurité.

L'innovation de FlexDOME, c'est que cette marge rétrécit de manière mathématiquement parfaite. Elle ne disparaît pas trop vite (ce qui causerait des accidents) ni trop lentement (ce qui vous empêcherait d'aller vite). Elle s'ajuste exactement pour couvrir vos erreurs d'apprentissage.

2. Le "Stabilisateur" (La Régularisation)

Les anciennes méthodes avaient un défaut : elles oscillaient. Comme un pendule, elles passaient d'un extrême à l'autre, ce qui rendait la sécurité instable.

FlexDOME ajoute un stabilisateur (comme un gyroscope dans un drone). Cela force l'algorithme à faire des changements de direction doux et progressifs plutôt que des sauts brusques. Cela garantit que la voiture ne "tremble" pas et ne dérape pas vers la zone dangereuse.

Les Résultats Magiques

Grâce à cette combinaison (marge qui rétrécit intelligemment + stabilisateur), FlexDOME réussit l'impossible :

Sécurité Absolue (Violation quasi-nulle) : Contrairement aux anciennes méthodes qui accumulaient des erreurs au fil du temps, FlexDOME maintient le nombre total d'infractions à un niveau presque constant. Peu importe combien de temps vous conduisez (100 ou 10 000 kilomètres), le nombre total de "presque-accidents" ne s'accumule pas indéfiniment. C'est comme si vous aviez un bouclier qui s'ajuste automatiquement pour que vous ne touchiez jamais vraiment le mur.
Performance Optimale : Même avec cette sécurité, l'algorithme apprend très vite et trouve des stratégies très performantes.
Stabilité Finale : À la fin de l'entraînement, la voiture ne continue pas à osciller. Elle se stabilise sur une trajectoire parfaite et sûre.

En Résumé

Imaginez un apprenti pilote qui, au lieu de simplement apprendre à voler, possède un système de sécurité intelligent :

Au début, il est entouré d'un gros coussin d'air qui l'empêche de toucher les obstacles.
À chaque vol, le coussin se dégonfle un tout petit peu, juste assez pour qu'il apprenne à voler plus près des obstacles sans jamais les toucher.
Grâce à un stabilisateur automatique, il ne fait jamais de mouvements brusques.

Le résultat ? Un pilote qui devient expert, vole très vite, mais qui n'a jamais eu un seul accident au cours de toute sa carrière, même après des milliers d'heures de vol. C'est exactement ce que FlexDOME promet pour les robots, les voitures autonomes et les systèmes médicaux critiques.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article s'intéresse à l'apprentissage par renforcement (RL) sûr dans le cadre des Processus de Décision Markoviens Contraints (CMDP) en ligne. Le défi principal réside dans la résolution d'un "trilemme" fondamental entre trois objectifs souvent contradictoires :

Sécurité stricte : Garantir que les contraintes sont respectées à chaque épisode, sans permettre de "compensation" d'erreurs (c'est-à-dire qu'une violation grave ne peut être annulée par une performance future).
Regret fort : Minimiser la somme des écarts positifs de récompense par rapport à la politique optimale, sans compensation temporelle.
Convergence à la dernière itération : Garantir que la politique finale (et non une moyenne des politiques passées) converge vers l'optimum et respecte les contraintes.

Limites des approches existantes :

Les méthodes primales-duales classiques atteignent souvent une convergence en moyenne (average-iterate) mais souffrent d'oscillations, empêchant la convergence à la dernière itération.
Les méthodes assurant la convergence à la dernière itération (last-iterate) inévitablement subissent une violation de contrainte forte croissante (polynomiale en $T$ ) car elles ne peuvent pas compenser les erreurs passées.
Les méthodes garantissant une violation faible (voire nulle) sous des métriques "faibles" (weak metrics) échouent souvent sous des métriques "fortes" où l'annulation d'erreurs est interdite.

L'objectif est de concevoir un algorithme qui satisfait simultanément : (i) une violation de contrainte forte quasi-constante ( $\tilde{O}(1)$ ), (ii) un regret fort sous-linéaire, et (iii) une convergence à la dernière itération.

2. Méthodologie : L'algorithme FlexDOME

Les auteurs proposent FlexDOME (Flexible safety Domain Optimization via Margin-regularized Exploration), un cadre primal-dual innovant qui résout ce trilemme grâce à deux mécanismes dynamiques clés :

A. Marge de Sécurité Décroissante (Decaying Safety Margin)

Au lieu d'utiliser une marge fixe ou cumulative, FlexDOME introduit une marge de sécurité $\epsilon_{i,t}$ qui décroît au fil du temps pour chaque contrainte $i$ et épisode $t$ .

Fonctionnement : Au début de l'apprentissage (incertitude élevée), la marge est large, forçant l'agent à explorer des régions sûres et conservatrices. À mesure que l'agent acquiert de l'information, la marge se réduit progressivement, permettant d'approcher la frontière optimale du problème original.
Stratégie de domination asymptotique : La décroissance de la marge est rigoureusement calibrée pour être asymptotiquement plus lente (ou égale) que les taux de décroissance des erreurs d'optimisation et statistiques. Cela permet de "clamer" (clamping) la somme des violations positives à un niveau constant, même si les erreurs individuelles ne s'annulent pas.

B. Régularisation Temporelle Variable

Pour stabiliser les dynamiques oscillatoires inhérentes aux méthodes primales-duales et garantir la convergence à la dernière itération, FlexDOME ajoute des termes de régularisation à la fonction Lagrangienne :

Entropie (Primal) : Rend l'objectif primal fortement concave, évitant les mises à jour de politique extrêmes.
Norme $L_2$ (Dual) : Rend l'objectif dual fortement convexe, réduisant les oscillations des multiplicateurs de Lagrange.
Ces termes sont pondérés par un paramètre de régularisation $\tau_t$ qui varie dans le temps.

C. Estimation et Mise à Jour

L'algorithme utilise une stratégie d'estimation hybride :

Estimations optimistes pour les récompenses, les contraintes et l'entropie (pour encourager l'exploration).
Estimations non biaisées pour les transitions et les seuils de contraintes (qui peuvent être stochastiques).
Une Évaluation de Politique Tronquée (TPE) est utilisée pour éviter que les bonus d'exploration n'explosent les estimations de valeur.
Les mises à jour suivent une montée en miroir (mirror ascent) pour la politique et une descente de gradient projetée pour les variables duales.

3. Contributions Théoriques Principales

Les auteurs établissent des garanties théoriques rigoureuses pour FlexDOME :

Violation de Contrainte Forte Quasi-Constante :
- L'algorithme atteint une violation forte cumulée de l'ordre de $\tilde{O}(1)$ .
- C'est une avancée majeure par rapport aux travaux précédents (ex: Müller et al., 2024) qui présentaient des violations croissantes ( $\tilde{O}(T^{0.93})$ ou $\tilde{O}(T^{6/7})$ ).
- La preuve repose sur une analyse terme par terme où la marge de sécurité domine asymptotiquement les termes d'erreur, empêchant l'accumulation de violations positives.
Regret Fort Sous-Linéaire :
- Le regret de récompense fort est borné par $\tilde{O}(T^{5/6})$ .
- Bien que légèrement supérieur au regret optimal théorique $\tilde{O}(\sqrt{T})$ (souvent obtenu sans contraintes fortes ou avec convergence moyenne), ce compromis est nécessaire pour garantir la sécurité stricte et la convergence à la dernière itération.
Convergence à la Dernière Itération :
- FlexDOME garantit que la politique finale $\pi_T$ converge vers l'optimum et satisfait strictement les contraintes.
- Plus précisément, après un nombre d'itérations suffisant ( $t = \Omega(\epsilon^{-4} \log(1/\epsilon))$ ), la violation de contrainte devient exactement nulle ( $[\alpha_i - V^{\pi_t}_{d_i}]_+ = 0$ ) et la sous-optimalité est bornée par $\Theta(\epsilon)$ .
Généralisation aux Seuils Stochastiques :
- Le cadre est étendu aux CMDP où les seuils de contraintes sont des variables aléatoires (et non des constantes fixes), une situation réaliste dans des applications comme la régulation de réseaux électriques ou la médecine.

4. Résultats Expérimentaux

Les expériences ont été menées sur des CMDP tabulaires générés aléatoirement avec des seuils fixes et stochastiques.

Comparaison : FlexDOME est comparé à une base de référence primal-dual classique (Vanilla PD) et à l'algorithme state-of-the-art UOpt-RPGPD.
Performance :
- Sécurité : FlexDOME est le seul algorithme à maintenir une violation instantanée proche de zéro et une violation forte cumulative plate (quasi-constante). Les autres méthodes montrent des oscillations et une violation croissante.
- Récompense : FlexDOME subit un léger compromis en termes de regret de récompense par rapport à UOpt-RPGPD, mais ce coût est justifié par la garantie de sécurité stricte.
- Ablation : L'étude d'ablation confirme que la suppression de la régularisation réintroduit les oscillations sévères, et que la marge de sécurité est cruciale pour maintenir la contrainte.

5. Signification et Impact

Ce travail résout un problème ouvert majeur dans l'apprentissage par renforcement sûr :

Théoriquement : Il démontre qu'il est possible de concilier sécurité stricte (sans compensation d'erreurs), regret sous-linéaire et convergence à la dernière itération, brisant le compromis perçu entre ces objectifs.
Pratiquement : La garantie de convergence à la dernière itération avec violation nulle est essentielle pour le déploiement dans des environnements critiques (santé, énergie, véhicules autonomes), où l'on ne peut pas se fier à une politique moyenne ou tolérer des violations cumulées.
Méthodologique : L'introduction d'une stratégie de "domination asymptotique terme par terme" via des marges de sécurité dynamiques ouvre de nouvelles perspectives pour l'analyse des algorithmes d'optimisation sous contraintes.

En résumé, FlexDOME représente une avancée significative vers des algorithmes de RL théoriquement prouvés et sûrs pour des applications réelles exigeantes.