Robust Counterfactual Inference in Markov Decision Processes

Cet article propose une nouvelle approche non paramétrique permettant de calculer des bornes fermées et efficaces sur les probabilités de transition contrefactuelles dans les processus de décision markoviens, afin d'identifier des politiques robustes optimisant le pire des cas sans se limiter à un modèle causal spécifique.

Jessica Lally, Milad Kazemi, Nicola Paoletti

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective et le "Et Si ?"

Imaginez que vous êtes un détective privé. Vous avez observé un agent (un robot, un médecin, ou même vous-même) prendre une décision dans un environnement incertain (comme naviguer dans une tempête ou soigner un patient). L'agent a pris une action, et le résultat a été... disons, moyen.

La question classique est : "Et si l'agent avait pris une autre décision ?" C'est ce qu'on appelle l'inférence contrefactuelle. C'est comme regarder une photo d'un accident de voiture et se demander : "Si le conducteur avait tourné à gauche au lieu de droite, aurait-il évité le choc ?"

🧱 Le Problème : Le Miroir Brisé

Jusqu'à présent, pour répondre à cette question, les chercheurs utilisaient une seule "règle du jeu" (un modèle causal) pour simuler le passé. C'était comme si le détective utilisait un seul type de miroir pour voir le passé.

  • Le problème : Dans la vraie vie, il existe des millions de façons dont les événements pourraient s'être déroulés, tous compatibles avec ce que nous avons vu. En utilisant un seul miroir, on risque de se tromper. Si le miroir est déformé, notre hypothèse sur "ce qui aurait pu se passer" est fausse. Dans des domaines critiques (comme la santé), se tromper peut être dangereux.

💡 La Solution : La "Boîte de Prudence"

L'équipe de ce papier (Jessica Lally, Milad Kazemi et Nicola Paoletti) a eu une idée brillante. Au lieu de choisir un seul miroir, ils ont décidé de construire une boîte qui contient TOUS les miroirs possibles qui pourraient être vrais.

  1. Les Bornes (Les Limites) : Au lieu de dire "Si vous aviez tourné à gauche, vous auriez gagné 10 points", ils disent : "Si vous aviez tourné à gauche, vous auriez gagné entre 5 et 15 points, selon la façon dont la réalité fonctionne vraiment."
  2. La Formule Magique : Leurs plus grandes trouvailles sont :
    • Ils ont prouvé qu'on peut calculer ces limites (le 5 et le 15) instantanément, avec une formule mathématique simple, sans avoir besoin de faire des millions de simulations lentes. C'est comme passer de la marche à pied à un avion supersonique (ils sont 4 à 250 fois plus rapides que les anciennes méthodes).
    • Ils ont ajouté deux règles de bon sens pour rendre la boîte plus petite et plus utile :
      • Stabilité : Si une action était très probable de réussir, elle le restera probablement dans le passé.
      • Monotonie : Si un résultat n'est pas arrivé dans la réalité, il ne devrait pas devenir plus probable dans l'hypothèse alternative (on ne peut pas inventer de la chance là où il n'y en avait pas).

🛡️ L'Agent Robuste : Le "Pessimiste Intelligent"

Une fois qu'ils ont cette "boîte de prudence" (appelée MDP contrefactuel par intervalles), ils créent un nouveau type d'agent.

  • L'ancien agent : Cherchait le meilleur scénario possible. S'il se trompait sur le modèle, il pouvait être catastrophique.
  • Leur nouvel agent : Est un pessimiste intelligent. Il se demande : "Quelle est la PIRE chose qui puisse arriver dans cette boîte de possibilités ?" Il choisit alors la stratégie qui garantit le meilleur résultat possible dans le pire des cas.

C'est comme si un capitaine de navire, au lieu de viser le port le plus rapide mais risqué, choisissait le chemin qui garantit qu'il arrivera à bon port même si la tempête est la pire possible.

🎯 Pourquoi c'est important ?

Imaginez un médecin qui utilise un algorithme pour décider d'un traitement.

  • L'ancienne méthode : "Si on avait donné le médicament B, le patient serait guéri à 90%." (Mais si le modèle est faux, c'est peut-être 10% !).
  • La nouvelle méthode : "Si on avait donné le médicament B, le patient aurait eu entre 40% et 95% de chances de guérison. Donc, pour être sûr, choisissons le médicament qui assure au moins 40% de chances, même dans le pire scénario."

🏁 En Résumé

Cette recherche est comme passer d'une devinette hasardeuse à une stratégie de sécurité inébranlable.

  • Ils ont remplacé la certitude fragile ("Je sais ce qui s'est passé") par une certitude robuste ("Je sais ce qui est possible et je me prépare au pire").
  • Ils l'ont fait énormément plus vite, ce qui permet de l'appliquer à de gros problèmes (comme piloter un avion ou gérer un hôpital).

C'est une victoire pour la sécurité : on ne parie plus sur une seule version de la réalité, on se prépare à toutes les versions possibles, et on gagne quand même.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →