LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à conduire une voiture autonome, mais avec une règle très stricte : vous n'avez le droit de toucher au volant que si vous regardez des vidéos d'anciens conducteurs. Vous ne pouvez pas essayer de conduire sur la route réelle pour apprendre, car un accident serait catastrophique. C'est ce qu'on appelle l'apprentissage par renforcement hors ligne (Offline RL).

Le problème, c'est que les vidéos d'entraînement contiennent parfois des erreurs, des dérapages ou des comportements dangereux. Comment apprendre à conduire parfaitement tout en garantissant qu'on ne tuera jamais personne ?

C'est là qu'intervient LexiSafe, une nouvelle méthode proposée par des chercheurs de l'Université d'État de l'Iowa et de Cornell. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Dilemme : Sécurité vs Performance

Dans le monde réel, on veut souvent deux choses contradictoires :

La Sécurité : Ne jamais heurter un piéton, respecter les feux rouges (priorité absolue).
La Performance : Arriver vite, consommer peu d'essence, être confortable (secondaire).

Les anciennes méthodes essayaient de trouver un "juste milieu" (un compromis), un peu comme essayer de conduire à 100 km/h tout en restant à 1 mètre des piétons. C'est risqué : si le système se trompe un peu, la sécurité saute en premier.

2. La Solution LexiSafe : La Hiérarchie "Lexicographique"

LexiSafe change la donne en utilisant une logique de priorité stricte, comme une liste de courses où l'ordre compte.

Imaginez que vous préparez un repas pour un invité très exigeant :

Étape 1 (Sécurité) : Vous devez d'abord vous assurer que le plat ne contient aucun allergène mortel (pas d'arachides si l'invité y est allergique). C'est non négociable.
Étape 2 (Performance) : Une fois que vous êtes sûr qu'il n'y a pas d'arachides, vous vous concentrez sur le goût pour rendre le plat délicieux.

Si vous faites le plat délicieux mais qu'il contient des arachides, c'est un échec total. LexiSafe applique cette logique à la robotique et aux véhicules autonomes.

3. Comment ça marche ? (Les deux phases)

Le système apprend en deux temps, comme un étudiant qui révise :

Phase 1 : L'entraînement "Sécurité" (Le Gardien)
Le robot regarde les données passées et apprend uniquement à éviter les catastrophes. Il apprend à minimiser les coûts (accidents, collisions). Il devient un expert de la prudence. À ce stade, il ne cherche pas à être rapide, juste à être sûr.
Phase 2 : L'entraînement "Performance" (Le Sportif)
Une fois que le robot a intégré les règles de sécurité, on lui dit : "Maintenant que tu ne vas plus t'écraser, essaie d'aller plus vite et de consommer moins." Mais attention ! Il doit garder en tête ce qu'il a appris à la phase 1. C'est comme un athlète qui s'entraîne pour battre un record, mais qui ne peut pas tricher en enfreignant les règles du sport.

4. Pourquoi c'est mieux que les anciennes méthodes ?

Les anciennes méthodes essayaient souvent de tout faire en même temps (sécurité + vitesse) en utilisant des formules mathématiques complexes. C'est comme essayer de cuisiner un plat sans allergènes tout en essayant de le rendre parfait, le tout en une seule étape. C'est difficile à équilibrer.

LexiSafe, lui, sépare les étapes.

Analogie du chantier : Imaginez un bâtiment.
- Les anciennes méthodes : Les architectes essaient de construire les murs et la décoration en même temps. Si le mur est mal posé pour faire de la place à la décoration, le bâtiment s'effondre.
- LexiSafe : D'abord, on construit des fondations et des murs indestructibles (Sécurité). Ensuite, on fait la décoration intérieure (Performance). Si la décoration est belle, c'est super. Si elle est moche, tant pis, mais le bâtiment ne s'effondrera jamais.

5. Les Résultats

Les chercheurs ont testé LexiSafe sur des simulateurs de robots et de voitures autonomes.

Résultat : Les robots apprennent à faire leur travail (comme déplacer un objet ou conduire) aussi bien que les autres, mais sans jamais enfreindre les règles de sécurité.
Avantage : Contrairement aux autres méthodes qui peuvent devenir trop prudentes (comme un conducteur qui ne bouge plus de peur de faire une erreur), LexiSafe trouve le meilleur équilibre possible dans la zone de sécurité.

En résumé

LexiSafe est comme un professeur de conduite très strict mais efficace. Il dit : "D'abord, tu apprends à ne jamais t'écraser (c'est la loi). Une fois que tu as prouvé que tu es sûr, alors seulement tu apprends à conduire vite."

C'est une méthode qui garantit que, même si l'intelligence artificielle apprend seule à partir de vieux fichiers, elle ne développera jamais de comportements dangereux, car la sécurité est codée en elle comme une priorité absolue, avant même de penser à la performance.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy", rédigé en français.

1. Problématique

L'apprentissage par renforcement (RL) est de plus en plus appliqué aux systèmes cyber-physiques (CPS) tels que la conduite autonome ou la gestion de l'énergie. Cependant, l'entraînement en ligne (interaction directe avec l'environnement) est souvent trop risqué et coûteux, car les actions non sécurisées peuvent causer des dommages physiques. Cela a motivé le développement du RL sûr hors ligne (Offline Safe RL), où les politiques sont apprises à partir de jeux de données pré-collectés sans interaction supplémentaire.

Les défis majeurs de l'RL sûr hors ligne actuel sont :

Compromis Sécurité-Performance : Les méthodes existantes tentent souvent d'optimiser la récompense et la sécurité simultanément (via des contraintes relaxées ou une optimisation conjointe), ce qui peut entraîner une dérive de la sécurité ou des politiques trop conservatrices.
Absence de Hiérarchie : Dans de nombreux scénarios réels, la sécurité n'est pas un signal unique mais implique des contraintes hiérarchiques (ex: éviter une collision est prioritaire sur le respect du code de la route, qui est lui-même prioritaire sur le confort). Les méthodes actuelles peinent à capturer cette structure lexicographique.
Manque de Garanties Théoriques : Peu de travaux offrent des bornes de complexité d'échantillonnage pour le RL sûr hors ligne, en particulier dans des contextes multi-objectifs hiérarchisés.

2. Méthodologie : LexiSafe

Les auteurs proposent LexiSafe, un cadre d'apprentissage qui impose un ordre lexicographique strict : la sécurité est traitée comme une priorité non négociable avant toute optimisation de la performance. Le cadre est divisé en deux variantes : LexiSafe-SC (coût unique) et LexiSafe-MC (coûts multiples).

Principes Fondamentaux

Le problème est formulé comme une séquence d'optimisations :

Phase 1 (Sécurité) : Minimiser le coût (ou les coûts) cumulés pour garantir que la politique reste dans une région sûre, tout en restant proche de la politique comportementale (pour éviter le décalage de distribution).
Phase 2 (Performance) : Maximiser la récompense cumulée en maintenant les contraintes de sécurité apprises précédemment.

Architecture et Algorithmes

LexiSafe s'appuie sur Implicit Q-Learning (IQL) pour gérer le décalage de distribution (distributional shift) sans nécessiter d'actions hors distribution (OOD).

Apprentissage des Critiques : Utilisation de réseaux de valeurs (V) et d'actions (Q) entraînés via une régression d'espérance (expectile regression) pour éviter la sous-estimation des coûts.
Extraction de la Politique (AWR) : La politique est mise à jour via une régression pondérée par l'avantage (Advantage-Weighted Regression).
- Pour LexiSafe-SC : Une première phase minimise le coût via un avantage de coût $A_c$ . Une seconde phase maximise la récompense en utilisant un avantage de récompense $A_r$ tout en pénalisant les coûts élevés via un multiplicateur de Lagrange $\lambda$ .
- Pour LexiSafe-MC : Le processus est étendu à $K-1$ phases de minimisation de coûts (une par contrainte de sécurité hiérarchisée) avant la phase finale de maximisation de la récompense. Chaque phase affine la politique tout en préservant les contraintes des phases précédentes.

Complexité et Théorie

Les auteurs dérivent des bornes théoriques rigoureuses :

Borne de violation de contrainte : Liée à la dimension du modèle, au coefficient de concentrabilité (mesure du décalage de distribution) et à la taille du jeu de données.
Borne de sous-optimalité de performance : Similaire à la borne de violation, assurant que la performance ne se dégrade pas excessivement tant que la sécurité est respectée.
Complexité d'échantillonnage : Ils établissent les premières bornes de complexité d'échantillonnage pour le RL sûr lexicographique hors ligne, montrant que le nombre d'échantillons nécessaires dépend polynomialement de l'horizon effectif et de la complexité du modèle.

3. Contributions Clés

Cadre LexiSafe : Introduction d'un nouveau cadre qui sépare hiérarchiquement les contraintes de sécurité de l'optimisation de la performance, garantissant que les violations de sécurité sont éliminées après la convergence initiale.
Extensions Multi-Coûts : Développement de LexiSafe-MC capable de gérer plusieurs contraintes de sécurité hiérarchisées (ex: collision > vitesse > carburant), une capacité souvent absente des méthodes existantes.
Garanties Théoriques : Établissement formel des bornes de violation de contrainte, de sous-optimalité et de complexité d'échantillonnage pour les scénarios à coût unique et multi-coûts.
Validation Empirique : Démonstration que la méthode surpasse les méthodes de base (baselines) tout en respectant strictement les contraintes de sécurité.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark DSRL (incluant Safety Gymnasium, Bullet Safety Gym et MetaDrive).

Comparaison avec les Baselines (LexiSafe-SC) :
- LexiSafe a surpassé des méthodes de pointe comme BC-Safe, COptiDICE, CPQ, FISOR et LSPC-O.
- Contrairement à BC-Safe (qui dépend de la quantité de données sûres) ou FISOR (trop conservateur), LexiSafe a atteint des récompenses normalisées plus élevées tout en maintenant un coût moyen inférieur à 1 (seuil de sécurité).
- Par exemple, sur le task AntVel, LexiSafe-SC a atteint une récompense de 0.98 avec un coût de 0.73, tandis que d'autres méthodes ont soit violé la sécurité (coût > 1), soit eu des performances médiocres.
Étude Ablative (LexiSafe-MC) :
- Dans l'environnement MetaDrive, LexiSafe-MC a été testé avec deux hiérarchies : (1) Collision > Vitesse > Récompense et (2) Vitesse > Collision > Récompense.
- Respect de la hiérarchie : Les résultats montrent que la méthode respecte strictement l'ordre des priorités. La phase 1 réduit le coût prioritaire, la phase 2 réduit le coût secondaire sans violer le premier, et la phase 3 maximise la récompense.
- Comparaison avec IQL pondéré : Une approche classique utilisant une somme pondérée des coûts et récompenses ( $\tilde{R} = R - \sum w_j C_j$ ) a échoué à garantir la sécurité de manière fiable, nécessitant un réglage fin et instable des poids. LexiSafe-MC, en revanche, garantit la satisfaction des contraintes sans nécessiter de réglage de poids extrême.

5. Signification et Conclusion

LexiSafe représente une avancée significative pour le déploiement du RL dans des domaines critiques (santé, robotique, véhicules autonomes).

Sécurité Structurale : En traitant la sécurité comme une priorité lexicographique et non comme une simple contrainte pondérée, le cadre élimine le compromis classique "sécurité vs performance" au profit d'une sécurité garantie.
Robustesse Hors Ligne : L'utilisation de IQL et de la régularisation par divergence KL permet d'apprendre efficacement à partir de données statiques, même si elles contiennent des trajectoires non sûres.
Fondement Théorique : La fourniture de bornes de complexité d'échantillonnage offre une assurance théorique manquante dans la littérature actuelle sur le RL sûr hors ligne.

En résumé, LexiSafe offre une approche pratique et théoriquement fondée pour prendre des décisions dans des systèmes cyber-physiques, où la fiabilité et le respect strict des hiérarchies de sécurité sont impératifs.