Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een waarzegger bent die probeert het weer te voorspellen. Normaal gesproken leer je dit door naar de afgelopen jaren te kijken: als het vorige maand regende, is de kans groot dat het nu ook regent. Maar wat als je dagboek met de weersgegevens beschadigd is? Sommige pagina's zijn verbleekt (ruis), en andere pagina's zijn helemaal weggerukt (ontbrekende labels).

Als je nu gewoon probeert te voorspellen op basis van die beschadigde dagboeken, kom je waarschijnlijk op een verkeerd antwoord uit. Je zegt misschien: "Het wordt zonnig," terwijl het eigenlijk stormt. En het ergste is: je weet niet eens dat je fout zit.

Dit is precies het probleem dat deze paper oplost. De auteurs (Shai Feldman, Stephen Bates en Yaniv Romano) hebben een nieuwe manier bedacht om voorspellingen te doen die veilig zijn, zelfs als je trainingsdata "rot" is. Ze noemen dit Conformal Prediction met Corrupte Labels.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Gekke" Beschadigde Data

In de echte wereld zijn data niet altijd perfect. Soms zijn antwoorden verkeerd ingevuld, soms zijn ze vergeten.

Het gevaar: Als je een machine learning-model traint op deze rommelige data, krijg je een voorspelling die er goed uitziet, maar die je niet kunt vertrouwen. Je weet niet hoe groot de kans is dat je fout zit.
De oplossing: De auteurs willen geen enkelvoudige voorspelling geven (bijv. "Het wordt 20 graden"), maar een voorspellingsset (bijv. "Het wordt ergens tussen 15 en 25 graden"). Ze willen garanderen dat de echte temperatuur altijd in dat bereik zit, met een zekerheid van bijvoorbeeld 90%.

2. De Eerste Oplossing: De "Privilege Informatie" (PCP)

Stel je voor dat je een student bent die een examen doet. Tijdens het leren had je toegang tot een "geheime gids" (Privileged Information) die de docent alleen voor de klas had. Die gids vertelde je precies welke vragen lastig waren. Maar op het moment van het examen heb je die gids niet meer.

Hoe het werkt: De auteurs gebruiken die "geheime gids" (bijvoorbeeld: de leeftijd van een patiënt of het inkomen van een klant) om te begrijpen waarom bepaalde data beschadigd is. Als ze weten dat oude mensen vaker hun inkomen vergeten invullen, kunnen ze die ontbrekende stukjes "wegwegen" in hun berekening.
Het risico: Stel dat je de "geheime gids" niet perfect begrijpt. Misschien denk je dat ouderen hun inkomen vergeten, maar eigenlijk is het omdat ze vergeten zijn om hun formulier in te leveren. Als je de wegingen (de gewichten) verkeerd berekent, werkt de methode niet meer.
De verrassing van de paper: De auteurs ontdekten iets cools: zelfs als je de "geheime gids" niet perfect begrijpt en je wegingen een beetje fout zijn, werkt de methode toch nog vaak. Het is alsof je een paraplu hebt die een beetje lek is, maar die je toch droog houdt als het niet te hard regent. Ze hebben bewezen dat de methode robuust is tegen kleine fouten.

3. De Tweede Oplossing: "Onzekere Invulling" (UI)

Soms is het onmogelijk om de "geheime gids" te gebruiken om de data te wegen. Wat nu?
Stel je voor dat je een raadsel moet oplossen, maar een stukje van de puzzel ontbreekt.

De oude manier: Je zou het ontbrekende stukje raden op basis van de rest van de puzzel. Maar als je raadt, maak je het te simpel. Je denkt: "Het is vast een blauw stukje," en je plaatst het. Hierdoor wordt je voorspelling te zeker, terwijl je eigenlijk niets weet.
De nieuwe manier (UI): De auteurs zeggen: "Nee, we gaan niet raden. We gaan het ontbrekende stukje invullen met een willekeurige, onzekere versie."
- In plaats van te zeggen "Het is 20 graden", zeggen ze: "Het is 20 graden, plus of min een willekeurige hoeveelheid onzekerheid die we hebben gezien bij vergelijkbare situaties."
- Ze vullen het gat op met een "gok" die bewust breed is. Ze zeggen: "We weten niet precies wat het is, dus we nemen een groot bereik om zeker te zijn."
Het resultaat: Omdat ze de onzekerheid bewust in de voorspelling houden, blijft de voorspelling betrouwbaar. Het is alsof je zegt: "Ik weet niet precies waar de schat is, dus ik graaf een heel groot gat." Daardoor is de kans dat je de schat vindt (de juiste voorspelling) veel groter.

4. De Ultieme Veiligheid: De "Triply Robuste" Methode

De auteurs zijn zo slim dat ze zeggen: "Waarom kiezen we voor één methode? Laten we ze allemaal tegelijk gebruiken!"
Ze bouwen een dubbel-veiligheidsnet (eigenlijk een drievoudig net):

De standaard methode (als de data perfect was).
De "Privilege Informatie" methode (als je de wegingen goed hebt).
De "Onzekere Invulling" methode (als je de wegingen niet goed hebt).

De magie: Zolang één van deze drie methoden goed werkt, werkt de hele voorspelling. Het is alsof je drie verschillende navigatiesystemen in je auto hebt. Als GPS uitvalt, neemt de kaart over. Als de kaart verkeerd is, neemt de stemmen van de passagier over. Zolang er één systeem werkt, kom je veilig aan.

Samenvatting in één zin

Deze paper leert computers hoe ze eerlijk en veilig voorspellingen moeten doen, zelfs als ze met rommelige, beschadigde data werken, door slimme trucs te gebruiken om de onzekerheid niet te verbergen, maar juist te omarmen.

Waarom is dit belangrijk?
In de echte wereld (zoals bij medische diagnoses of financiële risico's) is het gevaarlijk om te zeggen "Ik weet het zeker" als je eigenlijk twijfelt. Deze methode zorgt ervoor dat AI-systemen zeggen: "Ik denk dat het X is, maar ik heb een groot bereik van twijfel," waardoor we ze kunnen vertrouwen, zelfs als hun trainingsdata niet perfect was.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Moderne machine learning-modellen worden steeds vaker ingezet in hoog-risico scenario's waarbij betrouwbare onzekerheidskwantificatie essentieel is. Een veelvoorkomend probleem is dat trainingsdata vervuild zijn door ruisende of ontbrekende labels.

Conformal Prediction (CP) is een statistisch raamwerk dat voorspellingssets genereert die de ware uitkomst met een vooraf gespecificeerde waarschijnlijkheid (bijv. 90%) bedekken.
De geldigheid van CP rust echter op de aanname dat trainings- en testdata uitwisselbaar (i.i.d.) zijn.
Bij vervuilde labels treedt er een distributieverplaatsing op: de verdeling van de waargenomen (corrupte) data verschilt van de testverdeling.
Bestaande methoden zoals Weighted Conformal Prediction (WCP) en Privileged Conformal Prediction (PCP) proberen dit op te lossen door gebruik te maken van Privileged Information (PI) (extra features die alleen tijdens het trainen beschikbaar zijn, zoals een expertbeoordeling of gedetailleerde medische rapporten) om de data te herwegen.
De kernuitdaging: PCP en WCP vereisen dat de gewichten (die de kans op corruptie modelleren) nauwkeurig worden geschat. In de praktijk is dit vaak niet het geval, wat leidt tot onbetrouwbare onzekerheidsschattingen en onderdekking (under-coverage).

Methodologie

De auteurs introduceren twee hoofdmethodes en een geïntegreerde aanpak om robuustheid tegen onnauwkeurige gewichten en ontbrekende PI tijdens het testen te garanderen.

1. Analyse van Robuustheid bij PCP en WCP

De auteurs analyseren de gevoeligheid van PCP en WCP voor fouten in de geschatte gewichten ( $\tilde{w}_i$ ) ten opzichte van de ware gewichten ( $w_i$ ).

Ze tonen aan dat deze methoden niet noodzakelijk falen als de gewichten onnauwkeurig zijn.
Er worden theoretische voorwaarden afgeleid (Theorema 2 en 3) die aangeven onder welke omstandigheden de methoden nog steeds een geldige dekking bereiken, zelfs met constante of variabele fouten in de gewichten.
De validiteit hangt af van de relatie tussen de dekking van "Naive CP" (zonder correctie) en de theoretische dekking van WCP met ware gewichten. Als Naive CP bijvoorbeeld over-dekt, is PCP robuust tegen een breed scala aan gewichtsfouten.

2. Uncertain Imputation (UI)

Om de afhankelijkheid van nauwkeurige gewichtschattingen te doorbreken, stellen de auteurs Uncertain Imputation (UI) voor.

Concept: In plaats van labels te herwegen, worden de vervuilde labels geïmputeerd (ingevuld) met een versie die de onzekerheid behoudt.
Proces:
1. Er wordt een model $\hat{g}(X, Z)$ getraind dat de label $Y$ voorspelt op basis van de features $X$ en de PI $Z$ .
2. Voor ontbrekende labels wordt een imputatie gegenereerd: $\bar{Y}_i = \hat{g}(X_i, Z_i) + E(Z_i)$ , waarbij $E(Z_i)$ een steekproef is uit de residu-verdeling (fouten) van het model $\hat{g}$ , gespecifiek voor de PI $Z$ .
3. Deze "onzekere" labels worden gebruikt om de niet-conformiteitscores te berekenen voor de calibratie.
Voorwaarde: De methode vereist dat de PI een goede proxy is voor de label (d.w.z. $Y$ is goed te schatten uit $Z$ ) en dat de residuen onafhankelijk zijn van de voorspelling gegeven $Z$ .
Resultaat: Theoretisch bewezen (Theorema 4) dat UI een geldige marginale dekking garandeert, zelfs als de gewichten voor WCP/PCP onbetrouwbaar zijn.

3. Triply Robust Calibration (TriplyRobust)

De auteurs combineren drie benaderingen in één raamwerk:

Naive CP: Geldig als het model perfect is en er geen distributieverplaatsing is.
PCP: Geldig als de corruptie-kansen ( $M|Z$ ) goed worden geschat.
UI: Geldig als de label-verdeling ( $Y|Z$ ) goed wordt geschat.

TriplyRobust neemt de unie van de voorspellingssets van deze drie methoden.
Garantie: Zolang minstens één van de onderliggende aannames waar is, garandeert de gecombineerde set een geldige dekking (Theorema 5).

Kernbijdragen

Robuustheidsanalyse: Een gedetailleerde theoretische analyse die aantoont dat PCP en WCP vaak nog steeds geldige dekking bieden ondanks significante fouten in de gewichtschatting, wat een breder toepassingsgebied creëert dan eerder werd aangenomen.
Uncertain Imputation (UI): Een nieuwe, innovatieve methode die geen gewichten vereist, maar in plaats daarvan onzekerheid behoudt tijdens het imputeren van ontbrekende labels. Dit biedt een alternatief wanneer PI beschikbaar is maar de corruptie-mechanismen moeilijk te modelleren zijn.
Triply Robust Framework: Een ensemble-methode die de validiteit garandeert zolang één van de drie componenten (Naive CP, PCP, of UI) correct functioneert, wat de betrouwbaarheid in real-world scenario's aanzienlijk verhoogt.
Empirische Validatie: Uitgebreide experimenten op synthetische en real-world datasets (zoals MEPS19, Facebook, Bio) die aantonen dat UI en TriplyRobust de gewenste dekking bereiken waar Naive CP en PCP (met geschatte gewichten) falen.

Resultaten

Synthetische Experimenten:
- In scenario's waar Naive CP onder-dekt, faalt PCP vaak als de gewichten onnauwkeurig zijn. UI behaalt echter consistent de doeldekking (90%).
- De "TriplyRobust" methode slaagt erin de nominale dekking te bereiken zolang één component werkt, zonder de statistische efficiëntie (breedte van de intervallen) onnodig te beïnvloeden.
Real-world Experimenten (MEPS19, etc.):
- Naive CP en Naive Imputation (waarbij ontbrekende labels worden vervangen door het gemiddelde) leiden tot te smalle intervallen en onderdekking.
- PCP met geschatte gewichten presteert beter, maar kan nog steeds falen.
- UI en TriplyRobust bereiken consistent de 90% dekking, wat aantoont dat ze effectief omgaan met de distributieverplaatsing veroorzaakt door ontbrekende labels.
Robuustheid: De experimenten tonen aan dat UI zelfs werkt wanneer de theoretische onafhankelijkheidsaannames niet perfect worden nageleefd, wat wijst op een hoge praktische robuustheid.

Betekenis en Impact

Dit werk is van groot belang voor de toepassing van machine learning in kritieke domeinen (zoals gezondheidszorg en finance) waar data vaak imperfect is.

Het biedt een statistisch gegarandeerde oplossing voor onzekerheidskwantificatie in aanwezigheid van corrupte labels, een probleem dat eerder vaak leidde tot misleidende zekerheid.
Door de introductie van Uncertain Imputation, wordt een nieuwe weg gebaand die minder afhankelijk is van de nauwkeurige modellering van corruptiemechanismen (gewichten) en meer focust op het modelleren van de relatie tussen PI en labels.
Het TriplyRobust concept verhoogt de veiligheid van AI-systemen door te garanderen dat de onzekerheidskwantificatie betrouwbaar blijft, zelfs als de onderliggende modellen of aannames deels falen.

Samenvattend bieden de auteurs een theoretisch onderbouwde en empirisch gevalideerde toolkit om betrouwbare voorspellingssets te genereren in een realistische wereld waar data-kwaliteit vaak een issue is.

Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting

1. Het Probleem: De "Gekke" Beschadigde Data

2. De Eerste Oplossing: De "Privilege Informatie" (PCP)

3. De Tweede Oplossing: "Onzekere Invulling" (UI)

4. De Ultieme Veiligheid: De "Triply Robuste" Methode

Samenvatting in één zin

Probleemstelling

Methodologie

1. Analyse van Robuustheid bij PCP en WCP

2. Uncertain Imputation (UI)

3. Triply Robust Calibration (TriplyRobust)

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank