Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Cet article propose de nouvelles méthodes de classification sélective fondées sur le lemme de Neyman-Pearson et les rapports de vraisemblance pour améliorer la fiabilité des modèles, en particulier dans des scénarios réalistes de dérive de covariables où les distributions d'entraînement et de test diffèrent.

Alvin Heng, Harold Soh

Publié 2026-03-04
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎩 Le Chapeau Magique de l'IA : "Savoir quand se taire"

Imaginez un expert très intelligent, disons un chef cuisinier robot (c'est notre modèle d'IA). Ce robot est excellent pour cuisiner des plats classiques. Mais il a un défaut : il est trop confiant. Même s'il ne connaît pas un ingrédient exotique ou si la lumière dans la cuisine est bizarre, il va quand même essayer de cuisiner et vous servira un plat qui risque d'être mauvais.

Dans le monde de l'intelligence artificielle, on appelle cela faire une prédiction erronée. Le problème, c'est que les humains, eux, savent dire : "Je ne sais pas, je ne devrais pas répondre".

Ce papier propose une solution pour apprendre à ce robot à savoir quand se taire (abstention). Au lieu de toujours répondre, le robot doit pouvoir dire : "Hé, cette situation me semble étrange, je vais laisser un humain expert prendre le relais."

🧪 La Nouvelle Règle du Jeu : Le "Test de Vérité"

Les chercheurs (Alvin Heng et Harold Soh) ont eu une idée brillante. Ils ont regardé un vieux principe de mathématiques appelé le Lemme de Neyman-Pearson.

Pour faire simple, imaginez que vous êtes un garde-frontière. Vous avez deux hypothèses :

  1. Hypothèse A : Ce voyageur est un citoyen honnête (la réponse de l'IA est correcte).
  2. Hypothèse B : Ce voyageur est un imposteur (la réponse de l'IA est fausse).

Le Lemme dit que pour faire le meilleur choix possible, le garde ne doit pas se fier à son "intuition" ou à une simple estimation de confiance. Il doit comparer deux probabilités :

  • À quel point ce voyageur ressemble-t-il à un citoyen honnête ?
  • À quel point ce voyageur ressemble-t-il à un imposteur ?

Le robot doit calculer ce rapport de vraisemblance (ou "Likelihood Ratio"). Si le voyageur ressemble beaucoup plus à un honnête citoyen qu'à un imposteur, on le laisse passer. Sinon, on l'arrête.

🌍 Le Défi : Quand le Monde Change (Le "Choc de Covariance")

Jusqu'à présent, la plupart des IA étaient entraînées et testées dans le même environnement (comme un restaurant qui sert toujours les mêmes clients). Mais dans la vraie vie, les choses changent !

  • Exemple : Imaginez que votre robot a été entraîné sur des photos de chats réalistes.
  • Le problème : Un jour, on lui montre des peintures de chats ou des dessins animés. Ce sont toujours des chats (le sens est le même), mais l'apparence (l'image) a changé. C'est ce qu'on appelle un choc de covariance.

La plupart des méthodes actuelles échouent ici car elles sont trop rigides. Elles disent : "Ce dessin ne ressemble pas à mes photos d'entraînement, donc je ne suis pas sûr" (et parfois, elles se trompent en pensant que c'est un OOD - hors distribution - alors que c'est juste un chat dessiné).

🛠️ Les Nouvelles Outils du Robot

Les chercheurs ont créé deux nouveaux outils basés sur leur "Test de Vérité" pour aider le robot à mieux gérer ces changements :

  1. Le Détecteur de Distance (Δ-MDS et Δ-KNN) :
    Au lieu de juste regarder si l'image est "proche" de ce qu'il connaît, le robot regarde deux choses séparément :

    • À quelle distance est cette image par rapport aux exemples où il avait raison ?
    • À quelle distance est-elle par rapport aux exemples où il avait tort ?

    L'analogie : Imaginez que vous êtes dans une forêt. Si vous êtes plus proche du groupe de gens qui savent où est la sortie (les "corrects") que du groupe qui s'est perdu (les "faux"), alors vous êtes probablement en sécurité. Le robot fait exactement ce calcul, mais dans un espace mathématique complexe.

  2. La Fusion des Forces (Combinaison Linéaire) :
    Parfois, le robot a besoin d'un coup de pouce. Les chercheurs ont mélangé leur nouveau détecteur de distance avec une méthode classique (basée sur les "logits", qui sont comme des scores de confiance internes).

    • C'est comme si le robot utilisait à la fois sa boussole (la distance) et son instinct (le score de confiance) pour prendre une décision. Ensemble, ils sont plus forts que séparément.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur méthode sur des tâches complexes :

  • Vision : Reconnaître des objets sur des photos, des croquis, des peintures ou des images abîmées.
  • Langage : Comprendre des avis clients sur Amazon.

Le verdict ?
Leurs nouvelles méthodes sont beaucoup plus performantes que les anciennes.

  • Elles font moins d'erreurs.
  • Elles savent mieux dire "Je ne sais pas" quand c'est nécessaire.
  • Elles fonctionnent même quand l'IA est utilisée sur des modèles très puissants comme CLIP (qui comprend les images et le texte) ou des modèles de langage.

💡 En Résumé

Ce papier nous apprend que pour rendre une IA plus fiable, il ne suffit pas de la rendre plus intelligente. Il faut lui apprendre à reconnaître ses limites.

En utilisant une vieille règle mathématique (Neyman-Pearson) comme boussole, les auteurs ont créé un système qui permet à l'IA de dire : "Attends, ce cas est trop différent de ceux où j'ai l'habitude de réussir, je vais laisser un humain s'en occuper."

C'est une avancée majeure pour rendre l'IA plus sûre, surtout dans un monde où les données changent tout le temps (photos de dessins, nouvelles langues, environnements imprévus).

Le code de cette "boussole" est même disponible gratuitement pour que tout le monde puisse l'utiliser ! 🚀

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →