Conformal Selective Prediction with General Risk Control

Ce papier propose SCoRE, un nouveau cadre basé sur les valeurs-e et l'inférence conforme qui permet de contrôler strictement le risque d'erreurs dans les prédictions sélectives de modèles d'IA, offrant ainsi des garanties robustes sans hypothèses de modélisation et applicable à divers domaines comme la découverte de médicaments et les grands modèles de langage.

Tian Bai, Ying Jin

Publié 2026-03-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous avez un assistant très intelligent, un "super-développeur" d'IA, capable de prédire des choses complexes : quel médicament va guérir une maladie, combien de temps un patient restera à l'hôpital, ou même rédiger un rapport médical.

Le problème ? Cet assistant est parfois confiant, mais faux. Et dans des domaines vitaux comme la santé ou la découverte de médicaments, une erreur peut coûter cher (en argent, en temps, ou pire, en vies).

C'est là qu'intervient le SCoRE, une nouvelle méthode présentée par Tian Bai et Ying Jin. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : L'Artiste qui a peur de se tromper

Imaginez un chef cuisinier (l'IA) qui doit préparer des plats pour un banquet.

  • Parfois, il est sûr à 100 % que son plat est délicieux.
  • Parfois, il a un doute : "Ce plat a l'air bon, mais je ne suis pas certain."

Si le chef sert tous les plats, certains seront dégoûtants. Si le chef ne sert aucun plat, personne ne mange.
L'objectif du SCoRE est de donner au chef une règle simple : "Ne sers le plat que si tu es sûr qu'il ne va pas empoisonner les convives."

2. La Solution : Le "Filtre de Confiance" (SCoRE)

SCoRE est comme un contrôleur de qualité ultra-sceptique qui se tient à la porte de la cuisine. Il ne regarde pas seulement si le plat a l'air bon, il calcule le risque.

Dans le monde réel, le risque n'est pas toujours "Oui/Non" (plat bon/mauvais). Parfois, c'est une question de degré :

  • Découverte de médicaments : Combien d'argent allons-nous gaspiller si ce médicament ne marche pas ? (C'est un risque continu, comme une facture).
  • Médecine : Quelle est la probabilité que le patient reste à l'hôpital plus longtemps que prévu ? (Une erreur de 1 jour coûte moins cher qu'une erreur de 10 jours).

SCoRE permet de dire : "Je vais servir ce plat, mais je garantis que le coût moyen des erreurs sur tous les plats servis ne dépassera pas 5 €."

3. Comment ça marche ? (L'analogie du "Jeu de l'Enquêteur")

Pour prendre cette décision, SCoRE utilise une astuce mathématique appelée les "E-values" (Valeurs E). Imaginez que c'est un jeton de poker spécial.

  1. L'Entraînement (La Calibrage) : Avant de faire confiance à l'IA, on lui fait jouer un jeu avec des données connues (des plats dont on connaît déjà le goût). On observe combien de fois elle se trompe et à quel prix.
  2. Le Jeton de Poker (E-value) : Pour chaque nouveau plat (nouvelle prédiction), SCoRE génère un jeton.
    • Si le jeton est petit, cela signifie : "Attention ! Le risque est élevé, ne sers pas !"
    • Si le jeton est gros, cela signifie : "Tout va bien, le risque est faible."
  3. La Règle de Sécurité : SCoRE utilise une règle mathématique stricte (basée sur des tests d'hypothèses) pour s'assurer que, même si l'IA est un peu bizarre ou si les données changent (comme un changement de saison), la somme totale des "mauvaises surprises" restera toujours sous la limite fixée.

4. Les Deux Types de Promesses

SCoRE offre deux types de garanties, selon ce que vous voulez protéger :

  • Le Budget Global (MDR) : Imaginez que vous avez un budget de 1000 € pour les erreurs. SCoRE vous garantit que, sur l'ensemble des plats servis, vous ne dépasserez jamais ce budget total, même si vous servez beaucoup de plats. C'est idéal si vous voulez limiter les dégâts financiers globaux.
  • La Qualité Moyenne (SDR) : Imaginez que vous voulez que chaque plat servi soit de haute qualité. SCoRE garantit que le coût moyen d'une erreur, parmi tous les plats servis, reste très bas. C'est comme dire : "Même si on en sert beaucoup, la moyenne des erreurs ne sera pas catastrophique."

5. Pourquoi c'est révolutionnaire ?

Avant, pour avoir ce genre de garantie, il fallait faire des hypothèses très fortes sur la façon dont l'IA fonctionne (comme supposer qu'elle est parfaitement linéaire). C'était comme exiger que le chef cuisinier utilise uniquement des recettes connues.

SCoRE est différent :

  • Il fonctionne avec n'importe quelle IA, même une "boîte noire" incompréhensible.
  • Il fonctionne avec n'importe quel type de risque, même si le risque est une valeur continue (comme un montant d'argent ou un temps perdu), pas juste "vrai/faux".
  • Il ne nécessite pas de millions de données pour être sûr. Il fonctionne même avec de petits échantillons (ce qu'on appelle le "fini-échantillon").

En résumé

SCoRE, c'est comme donner à une IA un bouclier magique.
Au lieu de dire "Fais confiance à l'IA", on dit : "L'IA peut travailler, MAIS seulement si elle passe le test de sécurité de SCoRE. Et SCoRE garantit mathématiquement que, même si l'IA fait des erreurs, ces erreurs ne coûteront pas trop cher, ni en moyenne, ni au total."

C'est la clé pour déployer l'IA dans des domaines sensibles (médecine, finance, chimie) sans avoir peur de la catastrophe.