Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting

Each language version is independently generated for its own context, not a direct translation.

🌧️ Le Problème : La Cuisine avec des Ingrédients Abîmés

Imaginez que vous êtes un chef cuisinier (un algorithme d'intelligence artificielle) qui doit préparer un plat (faire une prédiction) pour un client. Pour apprendre à cuisiner, vous avez utilisé un livre de recettes (vos données d'entraînement).

Mais il y a un problème : certaines pages de votre livre sont tachées, déchirées ou manquent carrément.

Parfois, la quantité de sucre est illisible (label corrompu).
Parfois, le mot "sel" est remplacé par "sucre" par erreur (bruit).
Parfois, l'ingrédient principal n'est même pas écrit (label manquant).

Si vous essayez de cuisiner en vous basant uniquement sur ce livre abîmé, vous risquez de servir un plat dégoûtant. De plus, si vous essayez de dire au client : "J'ai 90 % de chances que ce plat soit bon", vous risquez de mentir, car votre livre de base est faux.

C'est le problème que ce papier cherche à résoudre : Comment donner une prévision fiable (avec une garantie de sécurité) quand nos données d'apprentissage sont pourries ?

🛡️ La Solution : Le "Parapluie" Mathématique (Conformal Prediction)

Les chercheurs utilisent une technique appelée Prédiction Conformée. Imaginez que vous ne donnez pas une seule réponse (ex: "Il fera 20°C"), mais un parapluie (ex: "Il fera entre 18°C et 22°C").

L'objectif est que ce parapluie soit assez grand pour couvrir la vraie température 90 % du temps.

Le problème : Si vos données d'entraînement sont corrompues, votre parapluie sera soit trop petit (vous vous mouillez), soit trop gros (vous portez un parapluie géant inutilement).

🕵️‍♂️ Les Trois Héros de l'histoire

Pour réparer ce parapluie, les auteurs proposent trois méthodes différentes, comme trois outils dans une boîte à outils.

1. Le Détective Privé (PCP - Privileged Conformal Prediction)

L'idée : Parfois, pendant l'entraînement, vous aviez accès à des informations secrètes que vous n'aurez pas le jour du service (au moment de la prédiction).
- Analogie : Imaginez que vous apprenez à cuisiner avec un chef étoilé qui vous chuchote des secrets (le "Privileged Information" ou PI). Mais le jour du service, le chef n'est plus là, et vous ne pouvez plus l'entendre.
Comment ça marche : Le détective utilise ces secrets pour dire : "Ah, cette page tachée du livre vient d'un chapitre où les erreurs sont fréquentes. Je vais donc donner moins de poids à cette page quand je calcule la taille de mon parapluie."
Le problème : Si le détective se trompe sur la probabilité d'erreur (il calcule mal les "poids"), son parapluie peut devenir trop petit.
La découverte du papier : Les chercheurs ont prouvé que même si le détective est un peu nul pour calculer ces poids, son parapluie reste souvent assez grand pour protéger le client ! C'est une bonne nouvelle : on n'a pas besoin d'un détective parfait.

2. Le Chef Ingénieux (UI - Uncertain Imputation)

L'idée : Au lieu de jeter les pages tachées ou de deviner le mot manquant, on remplace l'ingrédient manquant par... une version "floue" de l'ingrédient.
- Analogie : Si la recette dit "2 œufs" mais que le mot est taché, au lieu d'écrire "2" ou "3", on écrit "Entre 1 et 3 œufs, avec une petite chance d'en avoir 4". On garde l'incertitude !
Comment ça marche : On utilise les informations secrètes (le PI) pour deviner ce que l'ingrédient aurait pu être, mais on ajoute du "bruit" (du chaos) pour simuler le doute. On dit : "Je ne suis pas sûr, donc je vais élargir mon parapluie pour couvrir toutes les possibilités."
L'avantage : Cette méthode ne dépend pas de calculs de poids complexes. Elle fonctionne même si le détective (méthode 1) échoue.

3. Le Super-Héros Triplement Robuste (TriplyRobust)

L'idée : Pourquoi choisir entre le Détective et le Chef ? On les met tous les trois dans la même équipe !
Comment ça marche : On prend la réunion des trois parapluies.
- Si le Détective a raison -> On est protégé.
- Si le Chef a raison -> On est protégé.
- Si la méthode de base (sans secrets) a raison -> On est protégé.
Le résultat : Tant que l'un des trois a raison, le client est à l'abri de la pluie. C'est la garantie ultime : vous ne pouvez pas vous tromper tant qu'une des hypothèses est vraie.

🧪 Les Expériences (La Preuve par l'Exemple)

Les chercheurs ont testé leur théorie sur deux types de terrains de jeu :

Des données synthétiques (un terrain de jeu fabriqué) : Ils ont créé des scénarios où les données étaient volontairement pourries de manière très difficile à deviner. Résultat : Le "Chef Ingénieux" (UI) a réussi là où le "Détective" (PCP) a échoué parce que les poids étaient trop compliqués à calculer.
Des données réelles (vraies recettes) : Ils ont utilisé de vraies bases de données (comme des dépenses médicales ou des ventes de maisons). Là encore, leur méthode a permis de créer des parapluies de la bonne taille, contrairement aux méthodes classiques qui laissaient les gens se mouiller.

💡 En Résumé

Ce papier nous dit : "Ne paniquez pas si vos données sont sales ou incomplètes."

Si vous avez des informations secrètes pendant l'entraînement, vous pouvez les utiliser pour corriger vos prévisions.
Même si vous ne savez pas exactement comment corriger (les poids sont faux), vous pouvez quand même être sûr de votre résultat.
Si vous ne savez pas corriger les poids, vous pouvez utiliser une astuce pour "remplir les trous" en gardant l'incertitude.
Et si vous combinez tout ça, vous obtenez une sécurité maximale : tant qu'une de vos hypothèses est bonne, votre prédiction est fiable.

C'est comme avoir trois assurances différentes pour votre voyage : si l'une échoue, les deux autres vous couvrent toujours.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article s'intéresse à la quantification de l'incertitude dans des scénarios d'apprentissage automatique où les données d'entraînement sont corrompues, soit par des labels manquants (Missing Labels), soit par des labels bruités (Noisy Labels).

Le défi : La méthode standard de Conformal Prediction (CP) garantit que les ensembles de prédiction couvrent la vraie étiquette avec une probabilité spécifiée (ex: 90%), mais elle repose sur l'hypothèse d'échangeabilité (i.i.d.) entre les données d'entraînement et de test. Lorsque les labels sont corrompus de manière dépendante des caractéristiques (covariates), cette hypothèse est violée, entraînant un décalage de distribution et une couverture invalide (souvent une sous-estimation de l'incertitude).
Le cadre spécifique : Les auteurs considèrent un scénario où des Informations Privilegiées (PI - Privileged Information) sont disponibles uniquement lors de l'entraînement (ex: expertise d'un annotateur, données médicales détaillées) mais pas au moment du test. Ces PI peuvent expliquer le mécanisme de corruption ou servir de proxy pour le label.
Limites des méthodes existantes :
- La Conformal Prediction Pondérée (WCP) et la Conformal Prediction avec PI (PCP) tentent de corriger ce décalage en ré-pondérant les données. Cependant, elles nécessitent des poids exacts (probabilités de corruption conditionnelles), qui sont souvent inconnus et difficiles à estimer avec précision.
- Les méthodes d'imputation naïve (remplacer les labels manquants par une moyenne) réduisent artificiellement l'incertitude, conduisant à des intervalles trop étroits et invalides.

2. Méthodologie Proposée

Les auteurs proposent deux approches principales et une méthode combinée pour garantir la validité statistique malgré les corruptions.

A. Analyse de Robustesse de la PCP (Privileged Conformal Prediction)

La première contribution est une analyse théorique de la robustesse de la méthode PCP existante face à des poids estimés de manière imprécise.

Hypothèse : Les PI expliquent la corruption ( $(X, Y) \perp M | Z$ ).
Résultat théorique : Les auteurs démontrent que la PCP peut maintenir une couverture valide même si les poids sont erronés, à condition que l'erreur de pondération reste dans certaines bornes théoriques.
Condition clé : La validité dépend de la relation entre la couverture de la CP naïve (sur les données non corrompues) et la couverture théorique idéale. Si la CP naïve "sur-couvre" (over-coverage), la PCP est robuste à une large gamme d'erreurs de poids. Si elle "sous-couvre", les poids doivent être très précis.

B. Imputation Incertaine (Uncertain Imputation - UI)

C'est la contribution majeure de l'article : une nouvelle méthode qui ne repose pas sur l'estimation des poids de corruption, mais sur l'estimation des labels eux-mêmes via les PI.

Principe : Au lieu de remplacer les labels corrompus par une valeur ponctuelle (imputation naïve), la méthode UI remplace les labels manquants par une distribution de probabilité (ou un échantillon aléatoire) qui préserve l'incertitude.
Algorithme :
1. Entraînement d'un modèle $\hat{g}(X, Z)$ utilisant les PI pour prédire le label $Y$ .
2. Calcul des résidus (erreurs) de $\hat{g}$ sur un ensemble de référence (données non corrompues).
3. Imputation : Pour un label corrompu, on impute $\bar{Y} = \hat{g}(X, Z) + \epsilon$ , où $\epsilon$ est un échantillon aléatoire tiré de la distribution des résidus conditionnelle aux PI.
4. Application de la CP standard sur ces labels imputés "incertains".
Garantie théorique : Sous l'hypothèse que les résidus sont indépendants des prédictions conditionnellement aux PI, et que la densité du label est concentrée dans l'intervalle prédit, la méthode UI garantit une couverture marginale valide, même si les poids de corruption sont inconnus ou mal estimés.

C. Calibration Triplement Robuste (TriplyRobust)

Pour maximiser la fiabilité, les auteurs combinent les trois approches :

CP Naïve : Valide si le modèle de prédiction est parfait (hypothèse forte).
PCP : Valide si les poids de corruption sont bien estimés.
UI : Valide si les PI permettent de bien estimer les labels et leurs résidus.

Mécanisme : L'ensemble de prédiction final est l'union des ensembles générés par les trois méthodes.
Théorème : Si au moins une des trois hypothèses sous-jacentes est satisfaite, l'ensemble union garantit la couverture nominale (ex: 90%).

3. Résultats Expérimentaux

Les auteurs valident leurs méthodes sur des données synthétiques et réelles (MEPS, Facebook, Bio, House, NSLM).

Robustesse des poids (PCP) : Les expériences confirment que la PCP tolère des erreurs de poids importantes, surtout lorsque la CP naïve sur-couvre. Cependant, dans les cas où la CP naïve sous-couvre (comme sur le jeu de données MEPS), la PCP échoue si les poids sont mal estimés.
Performance de l'UI : La méthode UI réussit systématiquement à atteindre la couverture cible (90%) même lorsque les poids de corruption sont très difficiles à estimer (cas où la PCP échoue). Elle produit des intervalles de prédiction fiables sans nécessiter l'accès aux PI au moment du test.
Efficacité de TriplyRobust : La méthode combinée maintient une couverture valide dans tous les scénarios testés. Bien qu'elle produise des intervalles légèrement plus larges (union des trois), elle n'est pas excessivement conservatrice et offre une sécurité statistique supérieure.
Impact de l'imputation : Les expériences montrent que l'imputation naïve (remplacement par la moyenne) échoue lamentablement (sous-coverage), tandis que l'imputation incertaine (UI) préserve la variabilité nécessaire pour une couverture valide.

4. Contributions Clés

Analyse de robustesse théorique : Caractérisation précise des conditions sous lesquelles la PCP et la WCP restent valides malgré des poids de ré-pondération inexacts.
Nouvelle méthode (UI) : Introduction de l'Imputation Incertaine, une technique novatrice qui transforme le problème de la corruption de labels en un problème d'échantillonnage de résidus, garantissant la validité sans connaître les mécanismes de corruption.
Cadre Triplement Robuste : Proposition d'une stratégie d'ensemble qui garantit la validité statistique tant qu'une seule des hypothèses (modèle parfait, poids exacts, ou estimation de label via PI) est respectée.
Validation empirique : Démonstration sur des benchmarks réels et synthétiques que l'UI surpasse les méthodes existantes dans des scénarios de données corrompues complexes.

5. Signification et Impact

Ce travail est significatif car il adresse un problème critique dans le déploiement de l'IA en milieu réel : la fiabilité des estimations d'incertitude lorsque les données d'entraînement sont imparfaites.

Pratique : Il offre aux praticiens des outils pour construire des systèmes de prédiction sûrs même en présence de données manquantes ou bruitées, sans avoir besoin de connaître parfaitement le mécanisme de corruption.
Théorique : Il étend le cadre de la Conformal Prediction au-delà de l'hypothèse i.i.d. stricte, en intégrant des concepts d'apprentissage avec informations privilégiées (Learning using Privileged Information - LUPI) et d'imputation probabiliste.
Sécurité : La méthode "TriplyRobust" offre une garantie de sécurité "à l'épreuve des échecs", essentielle pour les applications à haut risque (médical, financier, autonome) où une sous-estimation de l'incertitude peut avoir des conséquences graves.

En résumé, l'article propose une boîte à outils théorique et pratique robuste pour la quantification de l'incertitude dans un monde de données imparfaites, en combinant intelligemment la ré-pondération et l'imputation probabiliste.