A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tous, sans jargon technique.

Imaginez que vous êtes un chef cuisinier (le développeur de l'intelligence artificielle) qui prépare un plat (un modèle de prédiction) pour des clients (les médecins, les juges, etc.). Votre objectif est de dire : « Ce client a-t-il besoin d'un traitement spécial ? » (Oui ou Non).

1. Le Problème : On juge le plat avec la mauvaise fourchette

Aujourd'hui, quand on teste ces modèles, on utilise souvent des règles de notation très rigides et un peu bêtes, comme si on notait un plat uniquement sur sa couleur ou son poids, sans se soucier du goût réel.

La méthode actuelle (la "Précision" ou l'AUC) : C'est comme si le chef disait : « J'ai bien deviné 90 % des clients qui avaient faim ! » Mais il oublie de demander : Quel était le prix de l'erreur ?
- Si vous ratez un client affamé (faux négatif), il meurt de faim.
- Si vous donnez à manger à quelqu'un qui n'a pas faim (faux positif), il a juste un petit mal de ventre.
- Les méthodes actuelles traitent ces deux erreurs comme si elles valaient la même chose. C'est comme si on disait qu'avoir un petit mal de ventre est aussi grave que de mourir de faim. C'est absurde.
Le manque de contexte : Souvent, on ne sait pas exactement quand le chef va devoir servir le plat. Est-ce qu'il doit être très prudent (ne rater personne) ou très sélectif (ne donner à manger qu'aux plus affamés) ? Les méthodes actuelles supposent qu'on a déjà décidé de tout, alors que dans la vraie vie, c'est souvent flou.

2. La Solution : Le "Score de Conséquence"

Les auteurs de ce papier disent : « Arrêtons de noter le plat sur sa couleur, notons-le sur les conséquences réelles de nos décisions. »

Ils proposent une nouvelle façon de voir les choses, qu'ils appellent une perspective conséquentialiste. C'est comme si, au lieu de compter le nombre de clients servis, on regardait le degré de satisfaction global en tenant compte de la gravité des erreurs.

Pour cela, ils utilisent deux outils mathématiques (les "règles de notation") qui existent depuis longtemps mais qu'on n'utilise pas assez bien :

Le Score de Brier : C'est comme une règle qui mesure la distance entre votre prédiction et la réalité, en tenant compte de la probabilité.
La Perte Logarithmique (Log Loss) : C'est une règle encore plus stricte qui punit très sévèrement les erreurs quand on était très confiant mais qu'on s'est trompé.

3. L'Innovation : La "Fourchette de Sécurité" (Bounded Thresholds)

C'est ici que le papier devient vraiment brillant.

Les critiques ont dit : « Le Score de Brier est bien, mais il juge le plat sur toutes les hypothèses possibles, y compris des scénarios impossibles (comme donner un traitement à un mort). »

Les auteurs répondent : « Exactement ! On ne doit pas juger sur tout l'univers, mais seulement sur la zone de sécurité où le chef opère vraiment. »

L'analogie du thermostat : Imaginez que vous voulez régler le chauffage.
- L'ancienne méthode disait : « Vérifiez si le thermostat fonctionne bien de -50°C à +100°C. » (Inutile, personne ne vit à -50°C).
- La nouvelle méthode dit : « Vérifiez seulement si le thermostat est précis entre 18°C et 22°C. » C'est là où vous vivez vraiment.

Ils ont créé une version "recadrée" (clipped) du Score de Brier qui ignore les scénarios fous et se concentre uniquement sur les décisions réalistes (par exemple : « Quand faut-il opérer un patient ? Entre 5% et 20% de risque de cancer »).

4. L'Outil Pratique : "briertools"

Pour que n'importe quel chef puisse utiliser cette nouvelle méthode, les auteurs ont créé une boîte à outils gratuite (un logiciel appelé briertools).

C'est comme donner aux chefs un thermometer intelligent qui ne se contente pas de dire « C'est chaud », mais qui dit : « Attention, si vous êtes à 19°C, c'est parfait. Si vous êtes à 25°C, vous brûlez le client. »

5. L'Exemple Réel : Le Cancer du Sein

Le papier teste cette méthode sur un vrai problème : décider qui doit prendre un médicament pour prévenir le cancer du sein.

Les médecins ne sont pas d'accord sur le seuil exact : certains disent « Agissez si le risque dépasse 1,66% », d'autres « 3% ».
Avec les anciennes méthodes, un modèle semblait meilleur que l'autre.
Avec la nouvelle méthode (qui regarde la zone entre 1,66% et 3%), le classement change ! Le modèle qui semblait mauvais devient le meilleur, car il est plus précis justement là où les médecins en ont besoin.

En Résumé

Ce papier nous dit :

Arrêtez de noter les IA avec des règles rigides qui ignorent le coût réel des erreurs (comme la vie humaine vs un petit inconvénient).
Adoptez une approche "conséquentialiste" : évaluez le modèle en fonction de ce qui se passe réellement quand on l'utilise.
Ne jugez pas sur tout l'univers, mais uniquement sur la zone de décision réaliste (la "fourchette de sécurité").
Utilisez les bons outils (comme briertools) pour faire ce calcul facilement.

C'est un appel à rendre l'intelligence artificielle plus humaine, plus pragmatique et plus utile dans le monde réel, là où les décisions ont un vrai impact sur la vie des gens.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les décisions basées sur l'apprentissage automatique (ML) dans des domaines critiques comme la santé ou la justice pénale nécessitent souvent de convertir des prévisions probabilistes en décisions binaires (0 ou 1) en utilisant un seuil de décision $\tau$ . Cependant, l'évaluation actuelle de ces classificateurs souffre d'un décalage fondamental entre la pratique et la réalité du déploiement :

Dépendance aux métriques fixes : La littérature (ICML, FAccT, CHIL) privilégie massivement des métriques basées sur des seuils fixes (comme la Précision, le Rappel, ou l'Accuracy) ou des métriques de classement global (comme l'AUC-ROC), qui ne tiennent pas compte des coûts réels des erreurs.
Inadéquation contextuelle : L'Accuracy suppose implicitement que les faux positifs et les faux négatifs ont le même coût, ce qui est rarement vrai (ex: un faux positif en médecine peut entraîner un traitement inutile, un faux négatif peut être fatal). L'AUC-ROC intègre une moyenne sur tous les seuils possibles, pondérée par la distribution des scores du modèle lui-même, ce qui revient à laisser le modèle déterminer arbitrairement l'importance relative des erreurs plutôt que de refléter les préférences du décideur.
Absence de prise en compte de l'incertitude du seuil : Dans la réalité, le seuil optimal est souvent inconnu ou incertain au moment de la sélection du modèle, mais les pratiques d'évaluation ignorent cette incertitude.

2. Méthodologie et Cadre Théorique

Les auteurs adoptent une perspective conséquentialiste issue de la théorie de la décision, où la performance d'un classificateur est définie par sa valeur attendue (ou son regret) par rapport à une structure de coûts réelle.

A. Formalisation du Regret

Ils définissent un modèle de coût où :

$c$ est le ratio de coût relatif (coût d'un faux positif / coût d'un faux négatif).
Le regret $R^*(\kappa, c)$ est la perte attendue d'un classificateur $\kappa$ par rapport à la décision optimale pour un coût $c$ donné.

B. Taxonomie des Métriques

Les auteurs établissent une taxonomie reliant les métriques aux scénarios de décision basés sur deux facteurs :

Couplage des instances : Les décisions sont-elles indépendantes (choix libre pour chaque instance) ou couplées par un budget fixe (Top-K, comme allouer un nombre limité de lits d'ICU) ?
Spécificité du seuil : Le seuil est-il connu avec certitude ou incertain (mélange de seuils) ?

Leur analyse montre que :

L'Accuracy correspond à un regret minimisé uniquement si le coût des erreurs est égal ( $c=0.5$ ).
L'AUC-ROC correspond à un regret moyen pondéré par la distribution des scores du modèle (hypothèse souvent non vérifiée).
Les Règles de Scoring Propres (Brier Score, Log Loss) correspondent à une moyenne du regret sur l'intervalle complet des coûts $[0, 1]$ , mais avec des pondérations différentes (uniforme pour Brier, pondérée par les extrêmes pour Log Loss).

C. Innovation Théorique : Règles de Scoring à Seuil Borné

Pour répondre à la critique d'Assel et al. (2017) selon laquelle le Brier Score moyen sur tout l'intervalle inclut des seuils cliniquement irréalistes, les auteurs dérivent de nouvelles métriques :

Brier Score Borné (Bounded Threshold Brier Score) : Une extension du Brier Score qui moyenne le regret uniquement sur un intervalle de coûts plausibles $[a, b]$ défini par l'expert.
Log Loss Borné : Une version similaire pour le Log Loss.
Formule clé : Ils démontrent que le regret moyen sur $[a, b]$ peut être calculé efficacement en utilisant une projection (clipping) des prédictions et des étiquettes réelles sur l'intervalle $[a, b]$ , évitant ainsi une intégration numérique lourde.
$\text{Brier}_{[a,b]} \propto \mathbb{E}[(y - \text{clip}_{[a,b]}(s(x)))^2] - \mathbb{E}[(y - \text{clip}_{[a,b]}(y))^2]$

D. Réconciliation avec l'Analyse des Courbes de Décision (DCA)

Les auteurs montrent que l'Analyse des Courbes de Décision (DCA), utilisée en médecine, est mathématiquement liée au Brier Score. Ils prouvent que le Brier Score borné équivaut à une moyenne du "Net Benefit" (bénéfice net) sur l'intervalle de seuils pertinents, offrant ainsi une interprétation décisionnelle rigoureuse que la DCA seule (qui est ponctuelle) ne fournit pas.

3. Contributions Clés

Théorique :
- Dérivation de règles de scoring propres bornées (Brier et Log Loss) qui intègrent l'incertitude du seuil sans nécessiter une distribution de probabilité complète des coûts.
- Réconciliation formelle entre les règles de scoring propres et l'Analyse des Courbes de Décision (DCA), démontrant que le Brier Score borné est la généralisation naturelle du Net Benefit pour des seuils incertains.
- Preuve que l'AUC-ROC, bien qu'utile pour le classement, est une mesure de regret biaisée par la distribution des scores du modèle, ce qui la rend inadaptée pour l'évaluation de coûts décisionnels.
Pratique et Empirique :
- Enquête LLM : Une analyse assistée par IA de 2 610 articles (ICML, FAccT, CHIL 2024) révèle que l'Accuracy domine (>50%) hors santé, tandis que l'AUC-ROC domine en santé, confirmant la sous-utilisation des règles de scoring propres (<15%).
- Outil Logiciel (briertools) : Publication d'un package Python open-source implémentant les métriques bornées, les courbes de regret et les décompositions calibration/discrimination.
- Étude de cas (Cancer du sein) : Application sur un jeu de données réels montrant que l'évaluation bornée (sur l'intervalle de seuils cliniquement pertinents 1,66% - 3%) change le classement des modèles par rapport aux métriques globales, sélectionnant le modèle le plus performant pour le contexte clinique réel.

4. Résultats Principaux

Inadéquation des métriques actuelles : La majorité des chercheurs utilisent des métriques (Accuracy, AUC) qui ne correspondent pas aux problèmes de décision réels (décisions indépendantes avec seuils incertains).
Supériorité des métriques bornées : Dans l'étude de cas sur le cancer du sein, un modèle XGBoost modifié avec un seuil interne de 2% était classé dernier par le Log Loss global, mais premier par le Log Loss borné sur l'intervalle clinique pertinent. Cela démontre que les métriques globales pénalisent injustement les modèles optimisés pour des plages de décision spécifiques.
Décomposition Calibration/Discrimination : Les règles de scoring propres (Brier, Log Loss) permettent de décomposer l'erreur en calibration et discrimination sur une échelle commune, contrairement aux métriques Top-K (comme AUC) qui ignorent la calibration. Cela aide à identifier si un modèle performant en AUC est en réalité mal calibré et donc dangereux en pratique.

5. Signification et Impact

Cet article fournit un cadre théorique et des outils pratiques pour aligner l'évaluation des modèles d'IA sur les conséquences réelles de leurs décisions.

Pour la recherche : Il invite à abandonner l'usage aveugle de l'Accuracy ou de l'AUC-ROC comme métriques par défaut, et à adopter des métriques qui reflètent l'incertitude des coûts de décision.
Pour la pratique (Santé, Justice, Finance) : Il offre une méthode rigoureuse pour évaluer les modèles dans des contextes où les seuils de décision sont flous ou débattus (ex: quand commencer un traitement ?). L'outil briertools rend cette approche accessible aux praticiens.
Éthique et Prise de décision : En forçant l'explicitation des intervalles de coûts plausibles, cette approche évite de laisser le modèle "décider" implicitement de la valeur d'une vie ou d'une liberté, plaçant le jugement de valeur entre les mains des experts humains.

En résumé, les auteurs proposent de passer d'une évaluation basée sur la "précision statistique" à une évaluation basée sur la "valeur décisionnelle", en utilisant des règles de scoring bornées pour capturer la réalité complexe des déploiements d'IA.