Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je op een drukke markt staat en je moet inschatten hoe duur een zeldzame bloem gaat kosten. Je vraagt het aan vijf verschillende experts. De één zegt: "Tussen 10 en 15 euro." De ander: "Tussen 12 en 18 euro." Een derde is heel zeker: "Precies 14 euro." Een vierde twijfelt: "Misschien 8, misschien 20."

Het probleem is niet alleen wat ze zeggen, maar hoe zeker ze zijn. In de wereld van kunstmatige intelligentie (AI) is het vaak zo dat modellen goede voorspellingen doen, maar slecht kunnen inschatten hoe betrouwbaar die voorspelling is. Als je een zelfrijdende auto bouwt, wil je niet alleen weten waar de auto moet sturen, maar ook hoe zeker de computer is. Als hij niet zeker is, moet hij voorzichtig zijn.

Deze paper introduceert een slimme nieuwe manier om al die verschillende zekerheidsinschattingen van meerdere AI-modellen samen te voegen. Ze noemen hun methode SACP.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: Te veel meningen, te veel rommel

Stel je voor dat elke expert een eigen manier heeft om zijn "zekerheid" te meten. Expert A gebruikt een schaal van 1 tot 100, Expert B gebruikt een schaal van 0 tot 10, en Expert C gebruikt een heel vreemde schaal die afhankelijk is van het weer.
Als je hun antwoorden simpelweg optelt of gemiddeld, krijg je onzin. Het is alsof je de temperatuur in graden Celsius optelt bij de snelheid in kilometer per uur. Het werkt niet.

Bestaande methoden proberen dit op te lossen door simpelweg de "meest populaire" voorspelling te kiezen (meerderheidsstem), of door de voorspellingen van iedereen te combineren tot een heel groot, veilig antwoord. Maar dat laatste is vaak te groot en onnauwkeurig. Je wilt een antwoord dat zeker is, maar ook krap (niet te breed).

2. De oplossing: De "Gelijkheids-Transformatie" (SACP)

De auteurs van dit papier hebben een slimme truc bedacht. Ze zeggen: "Laten we eerst alle experts op één lijn krijgen voordat we ze laten praten."

Ze gebruiken een wiskundige truc (gebaseerd op iets dat "e-waarden" heet, wat klinkt als een soort 'vertrouwensscore') om de antwoorden van elke expert om te vormen.

De Analogie: Stel je voor dat je vijf mensen hebt die elk een andere taal spreken en verschillende maten gebruiken. SACP is als een super-vertaler die iedereen omzet naar een standaardtaal en een standaardmaat.
Hoe? Ze kijken naar hoe "raar" of "normaal" een voorspelling is ten opzichte van de rest. Ze zetten dit om in een score die altijd hetzelfde gemiddelde heeft (een soort 'verwachtingswaarde van 1'). Hierdoor worden alle experts eerlijk met elkaar vergeleken, ongeacht hoe ze oorspronkelijk werkten.

3. Het samenvoegen: De "Symmetrische Mix"

Nu, nadat alle scores op dezelfde schaal staan, kunnen ze ze veilig samenvoegen. De paper noemt dit "Symmetrische Aggregatie".

De Analogie: Stel je voor dat je een soep maakt. Je hebt vijf verschillende bouillonblokjes (de experts). Als je ze zomaar in de pan gooit, kan het te zout of te zoet worden. Maar met SACP maak je eerst een basisbouillon van elk blokje die perfect gebalanceerd is. Dan meng je ze.
Het mooie is: je kunt de mix op verschillende manieren doen (sommige experts meer gewicht geven, anderen minder), maar de methode garandeert dat je nooit de zekerheid verliest.

4. Het resultaat: Een scherper, veiliger antwoord

Het doel is om een "voorspellingsset" te krijgen. In plaats van te zeggen "De prijs is 14 euro", zeggen ze "De prijs ligt tussen 13,50 en 14,50 euro".

Veiligheid: De methode garandeert dat het juiste antwoord altijd binnen die set zit (bijvoorbeeld in 95% van de gevallen).
Efficiëntie: De oude methoden gaven vaak sets die te groot waren (bijv. "Tussen 5 en 25 euro"). SACP levert sets die veel kleiner en scherper zijn (bijv. "Tussen 13,80 en 14,20 euro"), terwijl ze net zo veilig blijven.

Waarom is dit belangrijk?

In de echte wereld, zoals bij medische diagnoses of zelfrijdende auto's, is "veiligheid" alles. Maar een te brede veiligheidsset is nutteloos. Als een dokter zegt: "De ziekte zit ergens in je lichaam, maar we weten niet waar," is dat niet erg nuttig. Als hij zegt: "De ziekte zit met 95% zekerheid in dit specifieke orgaan," is dat veel beter.

SACP is de methode die zorgt dat je die specifieke, nauwkeurige voorspelling krijgt, door slim te combineren wat verschillende AI-modellen weten, zonder dat je de zekerheid opgeeft.

Kort samengevat:
SACP is als een super-coördinator die vijf verschillende experts eerst op één lijn zet (door hun scores te normaliseren) en ze dan slim laat samenwerken. Het resultaat is een antwoord dat niet alleen veilig is, maar ook veel preciezer is dan wat je van een enkele expert of een simpele gemiddelde zou krijgen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets" in het Nederlands.

Titel: Symmetrische Aggregatie van Conformiteitscores voor Efficiënte Onzekerheidssets

Auteurs: Nabil Alami, Jad Zakharia, Souhaib Ben Taieb (MBZUAI, CentraleSupélec, École des Ponts ParisTech, Universiteit van Mons)

1. Het Probleem

In veel toepassingen van kunstmatige intelligentie (AI) zijn er vaak meerdere voorspellende modellen beschikbaar voor dezelfde taak (zowel regressie als classificatie). Het is wenselijk om deze modellen te combineren om de voorspellingsprestaties te verbeteren en de robuustheid te vergroten. Echter, het aggregeren van de voorspellingsonzekerheid van deze modellen blijft een uitdaging, vooral binnen het kader van Conformal Prediction (CP).

Huidige situatie: CP-methoden kunnen voor elk model individuele voorspellingssets genereren met gegarandeerde dekking (coverage).
De uitdaging: Het combineren van deze individuele sets in één enkele, informatieve set is moeilijk. Simpele methoden zoals het nemen van de doorsnede (intersection) leiden vaak tot een te lage dekking, terwijl het nemen van de unie (union) leidt tot zeer grote, weinig informatieve sets. Bestaande methoden voor het aggregeren van scores of sets zijn vaak complex, vereisen extra data-splitsing, of halen niet de optimale efficiëntie (kleinste mogelijke set bij dezelfde dekking).

Het doel is dus: een methode ontwikkelen die meerdere conformale voorspellers combineert tot één set die exacte dekking garandeert (bijv. $1-\alpha$) maar efficiënter is (kleinere gemiddelde setgrootte) dan bestaande methoden.

2. Methodologie: SACP

De auteurs stellen SACP (Symmetric Aggregated Conformal Prediction) voor. Dit is een innovatieve methode die werkt in twee hoofdstappen:

A. Transformatie naar e-waarden (e-values)

In plaats van de ruwe conformiteitscores (NCS - Nonconformity Scores) direct te combineren, transformeert SACP deze naar e-variabelen (e-variables).

Voor elke predictor $k$ en elk calibratiepunt $i$ wordt een e-variabele $E_i^{(k)}$ geconstrueerd als de verhouding tussen de score van dat punt en het gemiddelde van alle scores (inclusief de test-score).
Voordeel: Deze transformatie normaliseert de scores over verschillende modellen heen. Het zorgt ervoor dat alle e-variabelen een verwachte waarde van 1 hebben onder de nulhypothese. Dit maakt het mogelijk om scores van modellen met verschillende schalen of verdelingen eerlijk te vergelijken en te combineren.

B. Symmetrische Aggregatie

De geconstrueerde e-variabelen van alle $K$ modellen worden vervolgens samengevoegd tot een enkele geaggregeerde score met behulp van een symmetrische functie $f$ .

Symmetrie: De functie $f$ is onafhankelijk van de volgorde van de modellen (permutatie-invariant). Dit is cruciaal omdat de labeling van de modellen willekeurig is.
Flexibiliteit: De methode staat elke symmetrische functie toe (bijv. som, product, of meer complexe functies).
Voorspellingsset: De uiteindelijke voorspellingsset wordt bepaald door de geaggregeerde e-scores te vergelijken met een empirisch kwantiel van de calibratie-data.

SACP++ (Geoptimaliseerde Versie)

Om de efficiëntie verder te maximaliseren, introduceren de auteurs SACP++.

In plaats van een vaste somfunctie te gebruiken, zoekt SACP++ automatisch de beste parameter $p$ binnen een parametrische familie van functies (waarbij $f(x) = \sum x_k^p$ ).
De parameter $p$ wordt gekozen om de gemiddelde setgrootte op een (ongelabelde) testset te minimaliseren, terwijl de theoretische dekkingsgarantie behouden blijft.

3. Belangrijkste Bijdragen

Nieuwe Methode (SACP): Een methode die conformiteitscores symmetrisch combineert via e-variabelen-transformatie. Dit is de eerste aanpak die dit doet op score-niveau met een gegarandeerde dekking van $1-\alpha$ zonder extra splitsing van de calibratiedata.
Data-gedreven optimalisatie (SACP++): Een variant die adaptief de aggregatiestrategie kiest om de setgrootte te minimaliseren, ondersteund door theoretische analyses.
Theoretische Onderbouwing: De auteurs leveren bewijzen voor de geldigheid (coverage) en leiden een "worst-case" bovengrens af voor de lengte van de voorspellingsset in regressietaken.
Uitgebreide Evaluatie: Omvangrijke experimenten op diverse datasets (OpenML regressie, CIFAR-10, MNIST) tonen aan dat SACP consistent beter presteert dan state-of-the-art baselines.

4. Resultaten

De experimenten tonen aan dat SACP en SACP++ superieur zijn aan bestaande methoden zoals:

Wagg: Gewogen aggregatie van scores.
CSA: Conformal Score Aggregation (gebaseerd op multivariate kwantielen).
CM/CR: Meerderheidsstemming (majority vote) op set-niveau.
BL: Selectie van het beste individuele model.

Kernresultaten:

Dekking (Coverage): SACP en SACP++ bereiken consistent de gewenste nominale dekking (bijv. 95% voor $\alpha=0.05$ ) over alle datasets en modellen heen. Andere methoden (zoals CSA) neigen tot onderschatting (under-coverage), terwijl andere (zoals CM) vaak te conservatief zijn (over-coverage).
Efficiëntie (Setgrootte):
- SACP++ levert consequent de kleinste voorspellingssets op, zowel voor classificatie als regressie.
- Op classificatietaken (CIFAR-10, MNIST) produceert SACP++ significant kleinere sets dan alle andere methoden, inclusief het beste individuele model.
- Op regressietaken presteert SACP++ beter dan het beste individuele model op 5 van de 9 datasets en is de beste aggregatiemethode op 7 van de 9 datasets.
Stabiliteit: De methode is robuust ten opzichte van het aantal gebruikte basismodellen ( $K$ ) en verschillende waarden van $\alpha$ .

5. Betekenis en Conclusie

Dit paper biedt een fundamentele verbetering in het veld van onzekerheidskwantificatie voor ensemble-modellen.

Efficiëntie zonder concessies: Het toont aan dat het mogelijk is om de informatie uit meerdere modellen te benutten om scherpere (kleinere) voorspellingssets te krijgen zonder af te zien van de strikte statistische dekkingseisen die CP biedt.
Theoretische elegantie: Door gebruik te maken van e-variabelen en symmetrische aggregatie, omzeilt de methode de complexiteit van afhankelijke p-waarden en biedt het een flexibel kader voor toekomstige innovaties (bijv. het leren van de aggregatiefunctie via neurale netwerken).
Praktische toepasbaarheid: De methode is eenvoudig te implementeren, vereist geen extra data-splitsing en werkt zowel voor regressie als classificatie.

Kortom, SACP stelt een nieuwe standaard voor het aggregeren van onzekerheid in machine learning, waarbij het de balans tussen nauwkeurigheid (dekking) en nut (setgrootte) optimaliseert.