What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Dilemme du Chef d'Orchestre : Recommander ou Agir ?

Imaginez que vous êtes le chef d'un grand orchestre (une plateforme, un hôpital, une application). Votre travail est de dire aux musiciens (les patients, les utilisateurs) quoi jouer.

Dans le monde idéal des mathématiques classiques, quand vous dites "Jouez la note Do", le musicien joue exactement la note Do. C'est simple.

Mais dans la réalité, les choses sont plus compliquées :

Vous dites "Jouez le Do", mais le musicien, parce qu'il connaît mieux son instrument ou parce qu'il a un caprice, décide de jouer un Ré.
Vous avez fait une recommandation (le Do), mais l'action réelle qui a eu lieu est le Ré.

Ce papier de recherche, intitulé BRACE, pose une question fondamentale : Qu'est-ce que nous devrions essayer d'optimiser ?

L'objectif "Recommandation" (REC) : On veut que notre conseil soit le meilleur possible tel qu'il est appliqué dans la réalité, avec toutes les hésitations et les changements de dernière minute des musiciens.
L'objectif "Traitement" (TRT) : On veut découvrir quelle est la vraie note parfaite, comme si on pouvait forcer chaque musicien à jouer exactement ce qu'on lui dit, sans qu'ils ne changent rien.
L'objectif "Sécurité" (INF) : On veut être sûr à 100 % de nos conclusions, même si on arrête l'expérience à n'importe quel moment.

Le problème, c'est que ces trois objectifs ne vont pas toujours dans la même direction. Parfois, le meilleur conseil à donner (pour que les gens soient heureux maintenant) est différent du meilleur traitement théorique (pour que les gens soient heureux si on pouvait tout contrôler).

🛠️ La Solution : L'Algorithme BRACE

Les auteurs proposent un nouvel algorithme appelé BRACE. Imaginez-le comme un chef d'orchestre très prudent et intelligent.

Voici comment il fonctionne, étape par étape :

1. Il ne se fie pas aux apparences (La Certification)

Si vous essayez de deviner la "vraie" note parfaite en regardant seulement ce que les musiciens jouent, vous pouvez vous tromper si les musiciens sont très capricieux.

L'analogie : Imaginez que vous essayez de deviner la recette d'un gâteau en goûtant ce que le client mange. Si le client ajoute du sel ou du sucre lui-même, vous ne saurez jamais la vraie recette du chef.
La solution BRACE : L'algorithme vérifie d'abord si les données sont assez "stables" pour faire ce calcul. Si les musiciens sont trop imprévisibles (ce qu'on appelle une "faible identification"), BRACE dit : "Stop ! Je ne peux pas être sûr de la recette exacte." Il refuse de donner une réponse fausse.

2. Il choisit son objectif avant de commencer

C'est le point le plus important du papier. Avant de lancer l'expérience, il faut décider :

Scénario A (Le monde réel) : "Je veux que mes musiciens soient heureux maintenant, avec leurs caprices." -> L'algorithme optimise la Recommandation.
Scénario B (Le futur idéal) : "Je veux savoir quelle est la meilleure note pour le futur, si un jour je peux contrôler tout l'orchestre." -> L'algorithme optimise le Traitement.

L'analogie du médecin :

Si vous êtes un médecin qui donne des conseils à des patients qui peuvent refuser de prendre leurs médicaments, votre but est d'optimiser le conseil (REC).
Si vous êtes un chercheur qui veut créer un nouveau médicament pour une usine qui le distribuera directement, votre but est d'optimiser le médicament (TRT).
Le papier dit : Ne mélangez pas les deux ! Si vous essayez de faire les deux en même temps sans le dire, vous risquez de faire des erreurs.

3. La "Peur" intelligente (L'Abstention)

Quand l'algorithme BRACE n'est pas sûr (parce que les données sont floues ou que les musiciens sont trop capricieux), il ne force pas une réponse.

Ce qu'il fait : Il lève la main et dit : "Je ne sais pas encore."
Pourquoi c'est bien ? C'est mieux de ne pas donner de conseil dangereux que de donner un conseil faux avec confiance. C'est comme un pilote d'avion qui dit "Je ne peux pas atterrir par temps de brouillard" plutôt que de tenter un atterrissage aveugle.

🌟 Les Découvertes Clés (en images)

Le Conseil peut être meilleur que la Réalité :
Parfois, le meilleur conseil à donner (qui tient compte des caprices des gens) est meilleur que n'importe quelle règle stricte qu'on pourrait imposer.
- Exemple : Si vous recommandez "Mangez des légumes", et que les gens mangent un peu de légumes et un peu de frites, c'est peut-être mieux pour leur santé que si vous les forciez à manger uniquement des légumes (ce qu'ils refuseraient et détesteraient).
La Sécurité coûte cher (mais c'est nécessaire) :
Sur des problèmes faciles, les algorithmes "sauvages" (qui ne vérifient pas la sécurité) vont plus vite. Mais dès que les choses deviennent compliquées (peu de données, beaucoup de bruit), ces algorithmes sauvages font des erreurs catastrophiques. BRACE, lui, reste prudent : il attend d'avoir assez de preuves avant de se lancer.
Le Contexte est Roi :
Si vous avez beaucoup d'informations sur les musiciens (leurs goûts, leur humeur), vous pouvez faire des prédictions plus fines. Mais si vous n'avez que peu d'informations, il faut être très prudent.

🏁 En Résumé

Ce papier nous dit : Arrêtez de penser que "recommander" et "agir" sont la même chose.

Si vous voulez améliorer le système tel qu'il fonctionne aujourd'hui (avec ses imperfections), optimisez vos recommandations.
Si vous voulez comprendre la vérité scientifique pour le futur, optimisez le traitement, mais soyez prêt à dire "je ne sais pas" si les données ne sont pas assez solides.

L'algorithme BRACE est l'outil qui permet de faire ce choix intelligemment, en restant honnête sur ce qu'il sait et ce qu'il ignore, pour éviter de donner de mauvais conseils à des gens qui pourraient en souffrir. C'est une approche plus humaine et plus sûre de l'intelligence artificielle.

Each language version is independently generated for its own context, not a direct translation.

Titre : Bandits avec Recommandations, Abstention et Effets Certifiés (BRACE)

1. Le Problème : Non-conformité et Objectifs Divisés

Le papier aborde le problème des bandits stochastiques avec non-conformité (noncompliance). Dans ce cadre, l'apprenant (le "learner") ne contrôle pas directement le traitement administré ( $X$ ), mais seulement une recommandation ou un instrument ( $Z$ ). Le traitement réel est déterminé par un acteur en aval (un patient, un médecin, un algorithme de filtrage) qui peut ignorer ou modifier la recommandation.

Cette séparation fondamentale entre l'action recommandée et le traitement réalisé crée une ambiguïté critique sur l'objectif d'apprentissage. L'auteur identifie trois objectifs distincts qui ne sont pas interchangeables :

Welfare de Recommandation (REC) : Maximiser le bien-être dans le flux de travail actuel, où les recommandations sont filtrées par des décisions humaines ou des frictions. L'objectif est d'optimiser la politique de recommandation telle qu'elle est déployée.
Welfare de Traitement Structurel (TRT) : Apprendre la meilleure règle de traitement pour un futur régime de contrôle direct (où le traitement serait imposé sans intervention humaine). Cela nécessite une identification causale structurelle.
Inférence Scientifique (INF) : Fournir des intervalles de confiance valides à tout moment (anytime-valid) pour l'objectif choisi, sous échantillonnage adaptatif.

Thèse centrale : Ces objectifs ne coïncident pas. Dans des régimes médiatisés, la meilleure politique de recommandation (REC) peut strictement surpasser toute politique de traitement directe (TRT) mesurable par l'apprenant, notamment lorsque les acteurs en aval utilisent des informations privées. Le choix de l'objectif est donc un choix de régime de déploiement, et non un détail technique.

2. Méthodologie : L'Algorithme BRACE

Pour résoudre ce problème, l'auteur propose BRACE (Bandits with Recommendations, Abstention, and Certified Effects), un algorithme sans paramètres (parameter-free) conçu pour les contextes finis (finite-context) et les problèmes d'instrumentation carrés (square-IV, où $Z = X$ ).

Fonctionnement clé de BRACE :

Exploration par Doublage de Phase (Phase Doubling) : L'algorithme fonctionne par phases ( $r = 0, 1, 2, \dots$ ) où la durée de chaque phase double ( $t_r = 2^r$ ). Pendant l'exploration, les recommandations sont tirées uniformément.
Estimation Empirique : À la fin de chaque phase, l'algorithme estime la matrice de conformité $P(w)$ (probabilité que la recommandation $z$ mène au traitement $x$ ) et les moyennes opérationnelles $g(w)$ .
Certification de Matrice (Matrix Certification) : C'est le cœur de la sécurité de l'algorithme. Avant d'inverser la matrice de conformité pour estimer les effets structurels ( $\mu = P^{-1}g$ $μ = P^{- 1} g$ ), BRACE vérifie une condition de stabilité :
$\|\hat{P}(w)^{-1}\|_\infty \cdot a_r(w) \leq \frac{1}{2}$
où $a_r(w)$ $a_{r} (w)$ est un rayon de confiance.
- Si la condition est remplie (certifiée) : L'inversion est effectuée pour obtenir des intervalles structurels étroits et honnêtes.
- Si la condition échoue (non certifiée) : L'algorithme refuse d'inverser (évitant ainsi des estimations instables dues à une identification faible) et retourne des intervalles structurels pleins (de 0 à 1), signalant une incertitude maximale.
Arrêt Adaptatif :
- Pour REC : L'algorithme s'arrête dès qu'un écart significatif sépare la meilleure recommandation des autres.
- Pour TRT : Il s'arrête uniquement si la meilleure politique structurelle est identifiée et certifiée. Sinon, il continue d'explorer ou s'abstient de déployer.

3. Contributions Clés

Formalisation de la Dichotomie REC/TRT : Le papier prouve mathématiquement (Proposition 3.2) que dans un environnement avec des informations privées en aval, le bien-être de la recommandation peut être strictement supérieur à celui de n'importe quelle politique de traitement directe. Cela justifie le rejet de l'approche "traitement d'abord" (treatment-first) traditionnelle dans les systèmes médiatisés.
Algorithme BRACE : Introduction d'un algorithme sans paramètres qui intègre nativement la sécurité face à l'identification faible (Weak Identification) via la certification de matrice.
Garanties Théoriques Simultanées :
- Validité des intervalles : Couverture garantie pour les valeurs de politique (REC et TRT) et l'inférence.
- Identification à Gap Fixe : BRACE identifie la politique optimale opérationnelle (REC) et structurelle (TRT) avec un nombre d'échantillons logarithmique, à condition que l'optimum soit unique et que l'identification soit possible.
- Sécurité : L'algorithme ne déployera jamais une politique structurelle si l'inversion de la matrice est instable (abstention).
Benchmarks Empiriques : Une étude exhaustive sur 11 environnements (incluant l'équivalence contrôle direct, l'avantage des signaux privés, l'échec d'homogénéité, et l'identification faible) démontrant que la sécurité se manifeste différemment selon le contexte (regret sur les problèmes faciles, abstention sur les problèmes d'identification faible, préférence pour REC en cas d'échec d'homogénéité).
Score Orthogonal pour Contextes Riches : Pour les contextes continus, l'auteur dérive un score orthogonal dont le biais conditionnel se factorise en un produit d'erreurs de modèle de conformité et de modèle de résultat. Cela clarifie les exigences pour une inférence IV semi-paramétrique valide à tout moment.

4. Résultats Empiriques

Les expériences valident la théorie à travers plusieurs scénarios :

Équivalence Contrôle Direct : Dans les cas où recommandation = traitement, REC et TRT coïncident, confirmant la validité des méthodes classiques.
Avantage Opérationnel (Private Signal) : Les méthodes optimisant REC atteignent un bien-être de 1.0, tandis que les méthodes TRT plafonnent à 0.5, confirmant que l'optimisation structurelle est sous-optimale dans ce régime.
Identification Faible (Weak ID) : Les méthodes "non sûres" (baselines) agissent sur du bruit et commettent des erreurs de déploiement. BRACE, en revanche, s'abstient (abstention) ou fournit des intervalles larges, évitant ainsi des décisions catastrophiques.
Échec d'Homogénéité : Lorsque l'hypothèse d'homogénéité (nécessaire pour l'identification TRT) est violée, BRACE continue de fournir une politique REC robuste, tandis que les tentatives d'estimation TRT deviennent non fiables.
Sur-identification Rectangulaire : L'ajout d'instruments supplémentaires (plus de bras de recommandation que de traitements) permet de "sauver" l'identification structurelle là où l'approche carrée échouait, réduisant l'incertitude.

5. Signification et Impact

Ce travail remet en question la norme historique des essais cliniques et des bandits qui privilégient systématiquement l'effet du traitement (TRT). Il démontre que :

Le choix de l'objectif est stratégique : Il doit être décidé avant l'algorithme, en fonction de ce qui sera réellement déployé (une recommandation filtrée ou un traitement direct).
La sécurité est contextuelle : La "sécurité" ne signifie pas seulement minimiser le regret, mais aussi savoir quand ne pas agir (abstention) lorsque l'identification causale est trop incertaine.
L'importance de la certification : La capacité à détecter mathématiquement l'instabilité de l'instrument (via la certification de matrice) est cruciale pour éviter de tirer des conclusions causales erronées dans des environnements adaptatifs.

En résumé, BRACE fournit un cadre rigoureux pour naviguer entre l'optimisation opérationnelle immédiate et l'apprentissage structurel futur, en garantissant que les décisions de déploiement sont toujours étayées par des preuves statistiques valides et stables.