Conformal Selective Prediction with General Risk Control

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous avez un assistant très intelligent, un "super-développeur" d'IA, capable de prédire des choses complexes : quel médicament va guérir une maladie, combien de temps un patient restera à l'hôpital, ou même rédiger un rapport médical.

Le problème ? Cet assistant est parfois confiant, mais faux. Et dans des domaines vitaux comme la santé ou la découverte de médicaments, une erreur peut coûter cher (en argent, en temps, ou pire, en vies).

C'est là qu'intervient le SCoRE, une nouvelle méthode présentée par Tian Bai et Ying Jin. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : L'Artiste qui a peur de se tromper

Imaginez un chef cuisinier (l'IA) qui doit préparer des plats pour un banquet.

Parfois, il est sûr à 100 % que son plat est délicieux.
Parfois, il a un doute : "Ce plat a l'air bon, mais je ne suis pas certain."

Si le chef sert tous les plats, certains seront dégoûtants. Si le chef ne sert aucun plat, personne ne mange.
L'objectif du SCoRE est de donner au chef une règle simple : "Ne sers le plat que si tu es sûr qu'il ne va pas empoisonner les convives."

2. La Solution : Le "Filtre de Confiance" (SCoRE)

SCoRE est comme un contrôleur de qualité ultra-sceptique qui se tient à la porte de la cuisine. Il ne regarde pas seulement si le plat a l'air bon, il calcule le risque.

Dans le monde réel, le risque n'est pas toujours "Oui/Non" (plat bon/mauvais). Parfois, c'est une question de degré :

Découverte de médicaments : Combien d'argent allons-nous gaspiller si ce médicament ne marche pas ? (C'est un risque continu, comme une facture).
Médecine : Quelle est la probabilité que le patient reste à l'hôpital plus longtemps que prévu ? (Une erreur de 1 jour coûte moins cher qu'une erreur de 10 jours).

SCoRE permet de dire : "Je vais servir ce plat, mais je garantis que le coût moyen des erreurs sur tous les plats servis ne dépassera pas 5 €."

3. Comment ça marche ? (L'analogie du "Jeu de l'Enquêteur")

Pour prendre cette décision, SCoRE utilise une astuce mathématique appelée les "E-values" (Valeurs E). Imaginez que c'est un jeton de poker spécial.

L'Entraînement (La Calibrage) : Avant de faire confiance à l'IA, on lui fait jouer un jeu avec des données connues (des plats dont on connaît déjà le goût). On observe combien de fois elle se trompe et à quel prix.
Le Jeton de Poker (E-value) : Pour chaque nouveau plat (nouvelle prédiction), SCoRE génère un jeton.
- Si le jeton est petit, cela signifie : "Attention ! Le risque est élevé, ne sers pas !"
- Si le jeton est gros, cela signifie : "Tout va bien, le risque est faible."
La Règle de Sécurité : SCoRE utilise une règle mathématique stricte (basée sur des tests d'hypothèses) pour s'assurer que, même si l'IA est un peu bizarre ou si les données changent (comme un changement de saison), la somme totale des "mauvaises surprises" restera toujours sous la limite fixée.

4. Les Deux Types de Promesses

SCoRE offre deux types de garanties, selon ce que vous voulez protéger :

Le Budget Global (MDR) : Imaginez que vous avez un budget de 1000 € pour les erreurs. SCoRE vous garantit que, sur l'ensemble des plats servis, vous ne dépasserez jamais ce budget total, même si vous servez beaucoup de plats. C'est idéal si vous voulez limiter les dégâts financiers globaux.
La Qualité Moyenne (SDR) : Imaginez que vous voulez que chaque plat servi soit de haute qualité. SCoRE garantit que le coût moyen d'une erreur, parmi tous les plats servis, reste très bas. C'est comme dire : "Même si on en sert beaucoup, la moyenne des erreurs ne sera pas catastrophique."

5. Pourquoi c'est révolutionnaire ?

Avant, pour avoir ce genre de garantie, il fallait faire des hypothèses très fortes sur la façon dont l'IA fonctionne (comme supposer qu'elle est parfaitement linéaire). C'était comme exiger que le chef cuisinier utilise uniquement des recettes connues.

SCoRE est différent :

Il fonctionne avec n'importe quelle IA, même une "boîte noire" incompréhensible.
Il fonctionne avec n'importe quel type de risque, même si le risque est une valeur continue (comme un montant d'argent ou un temps perdu), pas juste "vrai/faux".
Il ne nécessite pas de millions de données pour être sûr. Il fonctionne même avec de petits échantillons (ce qu'on appelle le "fini-échantillon").

En résumé

SCoRE, c'est comme donner à une IA un bouclier magique.
Au lieu de dire "Fais confiance à l'IA", on dit : "L'IA peut travailler, MAIS seulement si elle passe le test de sécurité de SCoRE. Et SCoRE garantit mathématiquement que, même si l'IA fait des erreurs, ces erreurs ne coûteront pas trop cher, ni en moyenne, ni au total."

C'est la clé pour déployer l'IA dans des domaines sensibles (médecine, finance, chimie) sans avoir peur de la catastrophe.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'intégration de l'intelligence artificielle (IA) dans des domaines à haut risque (découverte de médicaments, santé, etc.) nécessite des mécanismes de confiance rigoureux. La prédiction sélective permet à un modèle de s'abstenir de prédire lorsqu'il est incertain, ne déployant ses prédictions que lorsqu'il est jugé fiable.

Cependant, la littérature existante présente deux limitations majeures :

Risque binaire : La plupart des méthodes se concentrent sur le contrôle d'erreurs binaires (ex: vrai/faux, classe correcte/incorrecte). Or, de nombreuses applications réelles impliquent des risques continus (ex: coût de développement d'un médicament, erreur quadratique de prédiction, distance sémantique).
Garanties asymptotiques ou concentration uniforme : Les méthodes actuelles reposent souvent sur des hypothèses de concentration uniforme des erreurs empiriques, ce qui peut être trop conservateur ou difficile à satisfaire en échantillons finis, surtout sous des décalages de distribution (covariate shift).

Question centrale : Comment construire une décision de confiance binaire $\psi \in \{0, 1\}$ pour n'importe quel modèle boîte noire, capable de contrôler un risque continu et borné $L$ parmi les cas où le modèle est déployé, avec des garanties valables en échantillon fini et libres de distribution ?

2. Méthodologie : SCoRE (Selective Conformal Risk control with E-values)

Les auteurs proposent SCoRE, un nouveau cadre basé sur l'inférence conforme et les E-values (valeurs E).

A. Définitions des Métriques de Risque

Le cadre introduit deux métriques distinctes pour contrôler le risque parmi les instances déployées :

Risque de Déploiement Marginal (MDR - Marginal Deployment Risk) :
- Définition : $E[L_{n+1} \cdot \psi_{n+1}]$ .
- Interprétation : Contrôle le risque total accumulé par les instances déployées. C'est l'analogue de l'erreur de type I classique pour un risque aléatoire.
Risque de Déploiement Sélectif (SDR - Selective Deployment Risk) :
- Définition : $E\left[ \frac{\sum L_{n+j} \psi_{n+j}}{1 \vee \sum \psi_{n+j}} \right]$ .
- Interprétation : Contrôle le risque moyen par instance déployée. C'est une généralisation du FDR (False Discovery Rate) aux risques continus.

B. Le Concept d'E-values Ajustées au Risque

Au lieu d'utiliser des p-values (basées sur les probabilités de queue), SCoRE utilise des E-values (basées sur les espérances).

Définition : Une variable aléatoire $E_{n+j}$ est une E-value ajustée au risque si $E_{n+j} \ge 0$ et $E[L_{n+j} E_{n+j}] \le 1$ .
Logique : Si $E_{n+j}$ est grand, cela indique que le risque $L_{n+j}$ est probablement petit (car leur produit a une espérance bornée).

C. Construction des E-values

Le papier propose des constructions concrètes basées sur l'échangeabilité des données (ou l'échangeabilité pondérée en cas de décalage de covariables) :

Pour le MDR : Construction d'une E-value en prenant l'infimum sur les valeurs possibles du risque inconnu, en utilisant un score de confiance $s(X)$ (qui estime le risque ou l'incertitude). La décision de déploiement est prise si $E_{n+j} \ge 1/\alpha$ .
Pour le SDR : Construction d'E-values adaptées au filtrage e-BH (e-value Benjamini-Hochberg). Cela permet de sélectionner un sous-ensemble d'instances tout en contrôlant le FDR généralisé.

D. Gestion du Décalage de Distribution (Covariate Shift)

Le cadre est étendu aux situations où les données d'étalonnage et de test suivent des distributions différentes. En utilisant des poids d'importance $w(x)$ , les auteurs construisent des E-values pondérées qui maintiennent les garanties de contrôle du risque, même avec des poids estimés (propriété de double robustesse).

3. Contributions Clés

Généralisation aux Risques Continus : SCoRE est le premier cadre à offrir un contrôle exact en échantillon fini pour des risques continus et bornés, dépassant les limitations des méthodes binaires.
Cadre Unifié MDR/SDR : Il formalise et résout simultanément deux problèmes de contrôle de risque (total vs moyen) en utilisant une approche commune basée sur les E-values.
Garanties Libres de Distribution et Robustesse : Les garanties ne nécessitent aucune hypothèse sur le modèle sous-jacent, seulement l'échangeabilité des données. Le cadre est robuste aux décalages de distribution via des techniques de pondération.
Optimalité Asymptotique : Les auteurs dérivent des scores optimaux (de type Neyman-Pearson) qui maximisent la puissance (utilité) du déploiement sous contrainte de risque. Pour le SDR, le score optimal dépend du rapport $(l(x) - \alpha)/r(x)$ , où $l$ est le risque conditionnel et $r$ la récompense.
Efficacité Computationnelle : Des algorithmes sont proposés pour calculer les E-values sans recherche de grille exhaustive, réduisant la complexité à $O((n+m)m + (n+m)\log(n+m))$ .

4. Résultats Expérimentaux

Les auteurs évaluent SCoRE sur des simulations et trois applications réelles :

Découverte de Médicaments :
- Objectif : Sélectionner des candidats médicamenteux prometteurs tout en minimisant le gaspillage de ressources sur les faux positifs (coût continu).
- Résultat : SCoRE contrôle strictement le coût moyen (SDR) et total (MDR) même sous décalage de distribution, tout en sélectionnant un nombre significatif de candidats par rapport aux méthodes de base conservatrices.
Prédiction Clinique (Durée de séjour aux soins intensifs) :
- Objectif : Déployer uniquement les prédictions de durée de séjour avec une faible erreur quadratique (MSE).
- Résultat : Le contrôle du risque total (MDR) permet de limiter l'erreur cumulée sur les patients traités, garantissant une planification fiable.
Génération de Rapports Radiologiques par LLM :
- Objectif : Sélectionner les rapports générés par IA qui sont sémantiquement proches des rapports d'experts humains.
- Résultat : SCoRE contrôle la distance sémantique moyenne (SDR) des rapports déployés, assurant une qualité clinique acceptable.

Dans toutes les expériences, SCoRE démontre une puissance de sélection supérieure (plus de prédictions fiables) par rapport aux méthodes basées sur les inégalités de concentration (Hoeffding/Rademacher), tout en respectant strictement les seuils de risque $\alpha$ .

5. Signification et Impact

Ce travail représente une avancée majeure pour l'IA digne de confiance (Trustworthy AI) :

Pragmatisme Industriel : Il répond au besoin réel de contrôler des métriques de performance continues (coûts, erreurs) plutôt que de simples taux d'erreur binaire.
Flexibilité Théorique : L'utilisation des E-values permet de combiner la rigueur de l'inférence conforme avec la flexibilité des tests d'hypothèses multiples, ouvrant la voie à des applications en temps réel et en ligne.
Adaptabilité : La capacité à gérer les décalages de distribution et à intégrer des fonctions de récompense (utilité) rend la méthode applicable à des scénarios complexes où la distribution des données d'entraînement diffère de celle du déploiement.

En résumé, SCoRE fournit un cadre théorique solide et pratique pour déployer des modèles d'IA de manière sélective, garantissant que les décisions prises sont non seulement fiables, mais aussi optimisées pour minimiser les coûts et maximiser l'utilité dans des environnements réels.