A Variational Estimator for $L_p$ Calibration Errors

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een weerman bent die elke dag de kans op regen voorspelt. Als je zegt: "Er is 80% kans op regen," en het regent dan inderdaad 80% van de tijd op die dagen, dan ben je een perfect gekalibreerde weerman. Je vertrouwen (80%) komt overeen met de werkelijkheid.

Maar wat als je vaak zegt "80% kans", maar het regent eigenlijk maar 50% van de tijd? Dan ben je oververzekerd (te zelfverzekerd). Of wat als je zegt "20% kans" en het regent 40% van de tijd? Dan ben je onderverzekerd (te voorzichtig).

In de wereld van kunstmatige intelligentie (AI) gebeurt dit vaak. Computers zijn vaak slim, maar ze weten niet altijd hoe zeker ze moeten zijn. Ze geven cijfers (bijvoorbeeld "90% kans dat dit een kat is"), maar die cijfers kloppen niet altijd met de werkelijkheid.

Dit artikel introduceert een nieuwe, slimme manier om te meten hoe slecht die computers zijn in het schatten van hun eigen zekerheid.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het oude probleem: Het meten met een grove schep

Vroeger probeerden mensen de "kalibratiefout" te meten door de voorspellingen in bakjes te verdelen (zoals een korrelbak).

De analogie: Stel je hebt een bak met honderd knikkers (voorspellingen). Je gooit ze in 10 bakjes: bakje 1 heeft alle voorspellingen tussen 0-10%, bakje 2 tussen 10-20%, enzovoort. Dan tel je in elk bakje hoeveel er echt waar waren.
Het probleem: Dit werkt goed als je maar twee opties hebt (regen of geen regen). Maar als je 100 verschillende dingen kunt voorspellen (bijvoorbeeld: is dit een hond, een kat, een auto, een boom...?), wordt het "bakjes-maken" onmogelijk. Je hebt dan te weinig knikkers in elk bakje om een betrouwbaar gemiddelde te krijgen. Het is alsof je probeert een oceaan te meten met een theelepeltje.

2. De nieuwe oplossing: Een variabele "kalibratie-meter"

De auteurs van dit paper hebben een nieuwe methode bedacht die geen bakjes nodig heeft. Ze gebruiken een wiskundige truc die we een variational estimator noemen.

De analogie: In plaats van de knikkers in bakjes te gooien, nemen we een slimme, flexibele meetlat. Deze meetlat kan zich aanpassen aan de vorm van de data.
Hoe het werkt:
1. De computer kijkt naar zijn eigen voorspellingen.
2. Hij probeert een "tweede computer" te trainen die zegt: "Als jij (de eerste computer) 80% zegt, wat is de echte kans dan?"
3. Het verschil tussen wat de eerste computer zegt en wat de tweede computer (de 'tweede mening') corrigeert, is de fout.

3. Waarom is dit zo slim? (De "Kruisvalidatie" truc)

Een groot gevaar bij het trainen van een tweede computer is dat deze te slim wordt en de fouten van de eerste computer "leert" in plaats van ze te meten. Het is alsof je een leerling een proefexamen geeft en hem de antwoorden laat zien voordat je de echte test doet. Hij scoort dan perfect, maar dat is nep.

De auteurs gebruiken een truc genaamd kruisvalidatie (cross-validation):

De analogie: Stel je hebt een klas van 100 leerlingen. Je verdeelt ze in 5 groepen.
- Groep 1 leert van Groep 2, 3, 4 en 5.
- Groep 2 leert van 1, 3, 4 en 5.
- En zo verder.
- Vervolgens test je Groep 1 op de kennis die ze hebben opgedaan zonder dat ze de antwoorden van Groep 1 zelf hebben gezien.
Het resultaat: Dit zorgt ervoor dat je een eerlijke, eerlijke meting krijgt. Je weet zeker dat je de fout niet overdrijft. Het is alsof je een onafhankelijke jury hebt die nooit de antwoorden heeft gezien.

4. Het grote voordeel: Lp-fouten en "Over- vs. Onderverzekerdheid"

De oude methoden konden vaak alleen meten hoeveel de computer "fout" was in het algemeen. Deze nieuwe methode kan veel meer:

Lp-fouten: Het kan meten of de fouten "zacht" zijn of "hard". Het is alsof je niet alleen kijkt of je doel mist, maar ook hoe ver je naast het doel landt.
Over- vs. Onderverzekerdheid: De methode kan precies zeggen: "Deze computer is te zelfverzekerd" (hij zegt 90%, maar het is 50%) OF "Deze computer is te onzeker" (hij zegt 50%, maar het is 90%).
De analogie: Stel je hebt een weerman die soms te optimistisch is (regenvoorspelling te laag) en soms te pessimistisch (regenvoorspelling te hoog). De oude meter zei alleen: "Je bent gemiddeld 10% fout." De nieuwe meter zegt: "Je bent 5% te optimistisch en 5% te pessimistisch." Dat helpt je om je weerman precies te verbeteren.

Samenvatting in één zin

Dit paper introduceert een slimme, flexibele meetlat die zonder "bakjes" precies kan meten hoe onzeker een AI is, of hij te zelfverzekerd is, en of hij te voorzichtig is, zonder dat de meting zelf de resultaten verpest.

Waarom is dit belangrijk?
Omdat we AI-systemen gaan gebruiken voor belangrijke dingen (zoals medische diagnoses of zelfrijdende auto's). We moeten niet alleen weten wat de AI denkt, maar ook weten of we die mening kunnen vertrouwen. Deze nieuwe methode helpt ons om die "vertrouwensmeter" veel nauwkeurijker te maken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een Variational Schatter voor Lp-Calibratiefouten

Auteurs: Eugène Berta, Sacha Braun, David Holzmüller, Francis Bach, Michael I. Jordan.

1. Het Probleem: Calibratie in Machine Learning

Calibratie is een fundamentele eigenschap voor betrouwbare machine learning-systemen. Het verwijst naar de mate waarin de voorspelde kansen van een model overeenkomen met de daadwerkelijke waargenomen frequenties van klassen. Een model $f$ is goed gekalibreerd als de verwachte uitkomst gegeven de voorspelling gelijk is aan de voorspelling zelf: $E[Y | f(X)] = f(X)$ .

In de praktijk zijn veel moderne classifiers niet goed gekalibreerd ("out of the box") en neigen ze naar onbetrouwbare voorspellingen (bijv. over- of ondervertrouwen). De calibratiefout (Calibration Error, CE) wordt traditioneel gemeten als de verwachte divergentie tussen de voorspelling $f(X)$ en de ware conditionele verwachting $C = E[Y | f(X)]$ :
$CE_d(f) = E[d(f(X), C)]$
waarbij $d$ een divergentiefunctie is.

Bestaande uitdagingen:

Schatting is moeilijk: Het vereist het benaderen van de conditionele verwachting $C$ , wat lastig is omdat $f$ continu is.
Binning-problemen: Traditionele methoden zoals de Expected Calibration Error (ECE) gebruiken binning (indelen in intervallen). Dit is vertekend (biased), inconsistent, en lijdt aan de "curse of dimensionality" bij multiclass-problemen (meer dan twee klassen).
Beperking tot Proper Losses: Bestaande variational benaderingen werken alleen voor calibratiefouten die voortvloeien uit "proper losses" (zoals de Brier-score of logloss). Ze kunnen geen $L_p$ -normen (zoals de gebruikelijke $L_1$ -fout of Euclidische $L_2$ -fout) schatten, tenzij deze via binning worden benaderd.

2. Methodologie: Variational Schatting voor $L_p$ -fouten

De auteurs breiden een recent variational raamwerk uit om $L_p$ -calibratiefouten te schatten voor elke $p \geq 1$ , zowel voor binair als multiclass.

Kernidee:
In plaats van $C$ direct te schatten via binning, gebruiken ze een variational formulering gebaseerd op het minimaliseren van een verliesfunctie. Voor een proper loss $\ell$ geldt dat de calibratiefout kan worden geschreven als het verschil tussen het risico van het oorspronkelijke model en het minimale risico na recalibratie:
$CE_{d_\ell}(f) = E[\ell(f(X), Y)] - \min_{g \in \mathcal{H}} E[\ell(g \circ f(X), Y)]$
Hierbij is $g^\star$ de optimale recalibratiefunctie ( $g^\star(f(X)) = E[Y|f(X)]$ ).

De Innovatie voor $L_p$ :
De auteurs tonen aan dat men $L_p$ -divergenties (die niet direct door een vaste proper loss worden gegenereerd) kan schatten door de entropiefunctie $H$ (en dus de loss) dynamisch aan te passen aan de voorspelling $f(X)$ .
Ze definiëren een specifieke loss-functie $\ell_{f(X)}$ gebaseerd op de gradient van de $L_p$ -norm:
$\ell_{f(X)}(z, Y) = \langle \nabla_z \|z - f(X)\|_p, f(X) - Y \rangle$
Met deze constructie geldt dat:
$CE_{\|\cdot\|_p}(f) = E[\ell_{f(X)}(f(X), Y) - \ell_{f(X)}(g^\star \circ f(X), Y)]$

Implementatie en Cross-Validation:
Om overfitting te voorkomen (waarbij de geschatte recalibratiefunctie $\hat{g}$ te goed presteert op de trainingsdata en de fout overschat), gebruiken ze k-fold cross-validation:

De data wordt opgedeeld in $k$ folds.
Voor elke fold wordt een classifier $\hat{g}$ getraind op de andere $k-1$ folds om $Y$ te voorspellen op basis van $f(X)$ .
De calibratiefout wordt geschat op de hold-out fold.
Het gemiddelde van deze schattingen vormt een ondergrens (lower bound) voor de ware calibratiefout in verwachting. Hoe beter $\hat{g}$ de ware $g^\star$ benadert, hoe dichter de schatting bij de werkelijke fout ligt.

Extra functionaliteit:
De methode kan ook over-confidence en under-confidence gescheiden analyseren door de loss-functie aan te passen om respectievelijk alleen boven- of ondervertrouwing te straffen.

3. Belangrijkste Bijdragen

Extensie naar $L_p$ -normen: De eerste methode die $L_p$ -calibratiefouten (inclusief $L_1$ en $L_2$ ) schat zonder binning, voor zowel binair als multiclass.
Variational Raamwerk: Een theoretisch onderbouwde uitbreiding van bestaande variational schatters die werkt voor niet-proper divergenties door het gebruik van een voorspellingsafhankelijke loss-functie.
Ondergrens en Betrouwbaarheid: Door cross-validation te gebruiken, garandeert de methode dat de calibratiefout niet wordt overschat (in verwachting), wat een groot voordeel is ten opzichte van binnende methoden die vaak vertekend zijn.
Open Source Implementatie: Integratie in het probmetrics pakket, wat de toepasbaarheid voor de gemeenschap vergroot.

4. Resultaten en Experimenten

De auteurs hebben hun methode uitgebreid getest op synthetische en real-world datasets.

Vergelijking met Binning (ECE):
- De variational methode convergeert sneller naar de ware calibratiefout naarmate het aantal samples toeneemt.
- Bij weinig data of goed gekalibreerde modellen overschatten binnende methoden (zoals ECE) de fout vaak, terwijl de variational methode een realistische ondergrens biedt.
- De methode werkt consistent zelfs bij multiclass-problemen waar binning faalt door de dimensie.
Keuze van Classifiers voor $\hat{g}$ :
- De nauwkeurigheid van de schatting hangt af van hoe goed de classifier $\hat{g}$ de relatie tussen $f(X)$ en $Y$ leert.
- State-of-the-art modellen: Modellen zoals TabICLv2 en RealTabPFN-2.5 (tabulaire foundation models) halen de hoogste nauwkeurigheid, maar vereisen GPU's.
- Efficiënte alternatieven: De auteurs bevelen CatBoost (warm-started met niet-gekalibreerde logits) aan als de standaardoptie. Dit model biedt een uitstekende balans tussen snelheid en nauwkeurigheid, en presteert beter dan isotone regressie of temperatuur-schaling, vooral voor niet-proper metrics.
- Scheiding van fouten: De methode slaagt erin om over- en under-confidence nauwkeurig te scheiden, wat inzicht geeft in de aard van de mis-calibratie.

5. Betekenis en Impact

Deze paper biedt een robuust en flexibel alternatief voor de huidige standaardmethoden om calibratie te evalueren.

Betrouwbaarheid: Het elimineert de noodzaak van arbitraire keuzes zoals het aantal bins in ECE, wat vaak leidt tot onstabiele resultaten.
Multiclass Geschiktheid: Het lost het probleem op van het schatten van calibratie in hoge dimensies (veel klassen), waar traditionele methoden falen.
Praktische Toepassing: Door de integratie in een open-source pakket en het identificeren van efficiënte standaardmodellen (CatBoost), maken de auteurs geavanceerde calibratie-analyse toegankelijk voor practitioners.
Dieper Inzicht: De mogelijkheid om over- en under-confidence apart te meten helpt ontwikkelaars om specifieke problemen in hun modellen te diagnosticeren en te corrigeren.

Kortom, dit werk stelt de machine learning-gemeenschap in staat om calibratie nauwkeuriger, sneller en betrouwbaarder te meten, wat essentieel is voor het vertrouwen in AI-systemen in kritieke toepassingen.

A Variational Estimator for LpL_pLp​ Calibration Errors

1. Het oude probleem: Het meten met een grove schep

2. De nieuwe oplossing: Een variabele "kalibratie-meter"

3. Waarom is dit zo slim? (De "Kruisvalidatie" truc)

4. Het grote voordeel: Lp-fouten en "Over- vs. Onderverzekerdheid"

Samenvatting in één zin

Titel: Een Variational Schatter voor Lp-Calibratiefouten

1. Het Probleem: Calibratie in Machine Learning

2. Methodologie: Variational Schatting voor LpL_pLp​-fouten

3. Belangrijkste Bijdragen

4. Resultaten en Experimenten

5. Betekenis en Impact

Meer zoals dit

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

A Variational Estimator for $L_p$ Calibration Errors

2. Methodologie: Variational Schatting voor $L_p$ -fouten