A Variational Estimator for $L_p$ Calibration Errors

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der lügende Wahrsager

Stellen Sie sich vor, Sie haben einen Wahrsager (einen KI-Modell), der Ihnen sagt: „Ich bin zu 80 % sicher, dass es morgen regnet."

Wenn es in 100 Fällen, in denen er 80 % sagte, tatsächlich 80-mal regnet, dann ist er kalibriert. Er sagt die Wahrheit.
Wenn es aber nur 50-mal regnet, ist er übermütig (overconfident). Er ist sich zu sicher.
Wenn es 90-mal regnet, ist er unsicher (underconfident). Er traut sich nicht zu, was er eigentlich weiß.

Das Problem: Die meisten modernen KI-Modelle sind wie dieser lügende Wahrsager. Sie geben Zahlen aus, aber diese Zahlen stimmen oft nicht mit der Realität überein. Um das zu messen, brauchen wir einen „Fehlerzähler" (den Kalibrierungsfehler).

Das alte Werkzeug: Der grobe Korb

Bisher haben Wissenschaftler versucht, diesen Fehler zu messen, indem sie alle Vorhersagen in Eimer (Bins) sortiert haben.

Beispiel: Alle Vorhersagen zwischen 70 % und 80 % kommen in Eimer Nr. 7. Dann schauen sie, wie oft es wirklich geregnet hat, und vergleichen das mit dem Durchschnitt der Eimer.

Das Problem mit den Eimern:

In der 3D-Welt unmöglich: Wenn das Modell nicht nur „Regen oder kein Regen" sagt, sondern 10 verschiedene Wetterarten (Sonne, Regen, Schnee, Hagel, Nebel...), wird der Eimer-Ansatz zum Albtraum. Man braucht so viele Eimer, dass man fast keine Daten mehr in einem einzigen Eimer hat. Das nennt man den „Fluch der Dimensionalität".
Verzerrung: Oft überschätzen diese Eimer-Messungen den Fehler nur, weil die Eimer zu grob sind.

Die neue Lösung: Der „Spiegel" und der „Variational Estimator"

Die Autoren dieses Papiers haben eine clevere neue Methode entwickelt. Statt die Daten in Eimer zu werfen, bauen sie einen Spiegel.

Die Analogie:
Stellen Sie sich vor, Ihr KI-Modell ist ein etwas verzerrter Spiegel. Es zeigt Ihnen ein Bild, aber das Bild ist leicht schief (übermütig oder untermütig).

Der alte Weg: Man versucht, das Bild mit Linealen und Eimern zu vermessen.
Der neue Weg (Variational Estimator): Man nimmt einen zweiten, sehr klugen Assistenten (ein anderes KI-Modell). Dieser Assistent schaut sich das verzerrte Bild an und versucht, es zu korrigieren. Er lernt: „Aha, wenn der erste Spiegel 80 % sagt, liegt die Wahrheit eigentlich bei 60 %."

Der Fehler ist dann einfach die Differenz zwischen dem, was der erste Spiegel sagt, und dem, was der korrigierende Assistent sagt.

Warum ist das genial?

Keine Eimer nötig: Der Assistent kann jede beliebige Form von Verzerrung erkennen, egal ob es 2 oder 100 Kategorien gibt. Er funktioniert wie ein flüssiger Wasserstrahl, der jede Form annimmt, statt wie ein starrer Eimer.
Keine Übertreibung: Die Autoren nutzen eine spezielle Technik namens Cross-Validation (Kreuzvalidierung). Das ist wie bei einer Prüfung: Der Assistent lernt an einem Teil der Daten, wird aber an einem anderen, unbekannten Teil getestet. So kann er nicht „auswendig lernen" (Overfitting) und den Fehler nicht künstlich klein oder groß machen. Das Ergebnis ist ein sicherer, unterer Grenzwert für den Fehler – wir wissen also: „Der Fehler ist mindestens so groß."

Was können sie jetzt messen?

Früher konnte man nur bestimmte Arten von Fehlern messen (die „richtigen" Verluste). Mit dieser neuen Methode können sie nun jede Art von Distanz messen, auch die sogenannten Lp-Fehler.

L1-Fehler: Wie weit ist das Bild insgesamt verschoben? (Summe aller kleinen Fehler).
L2-Fehler: Wie stark ist das Bild verzerrt, wenn man große Fehler besonders hart bestraft?

Das ist wichtig, weil je nach Anwendung unterschiedliche Fehlerarten schlimmer sind. Manchmal ist es egal, wenn man bei 10 kleinen Dingen falsch liegt, aber fatal, wenn man bei einem großen Ding falsch liegt. Diese Methode kann das alles messen.

Das Ergebnis im echten Leben

Die Autoren haben ihre Methode in eine kostenlose Software-Box (probmetrics) eingebaut. Sie haben getestet, wie gut verschiedene „Assistenten" (KI-Modelle) den Fehler finden:

Einfache Methoden (wie das Eimer-Verfahren) waren oft ungenau.
Moderne, starke Modelle (wie CatBoost oder TabICLv2) haben den Fehler am besten gefunden.

Fazit:
Statt die Vorhersagen einer KI in starre Eimer zu stecken und zu hoffen, dass es passt, bauen wir jetzt einen intelligenten Korrektur-Assistenten, der die Verzerrung live ausrechnet. Das ist genauer, funktioniert auch bei komplexen Problemen mit vielen Kategorien und gibt uns ein ehrliches Bild davon, wie sehr wir uns auf die KI verlassen können.

Kurz gesagt: Wir haben den Eimer weggeschmissen und durch einen klugen Spiegel ersetzt, der uns genau sagt, wie sehr die KI lügt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Kalibrierung ist ein fundamentales Anliegen für zuverlässige maschinelle Lernsysteme. Ein Klassifikator ist kalibriert, wenn die vorhergesagten Wahrscheinlichkeiten mit den beobachteten Klassenhäufigkeiten übereinstimmen (d.h. $E[Y|f(X)] = f(X)$ ). In der Praxis sind viele moderne Klassifikatoren jedoch oft nicht kalibriert (z. B. neigen sie zu Über- oder Unter-Vertrauen).

Das Hauptproblem liegt in der Schätzung des Kalibrierungsfehlers (Calibration Error, CE). Traditionelle Methoden, wie der Expected Calibration Error (ECE), basieren auf dem „Binning" (Einteilung der Vorhersagen in Intervalle). Diese Ansätze haben erhebliche Nachteile:

Sie sind verzerrt (biased) und inkonsistent.
Sie leiden unter dem „Fluch der Dimensionalität", insbesondere bei multiklassigen Problemen (mehr als zwei Klassen).
Sie erfordern die manuelle Wahl der Anzahl der Bins.
Sie können den wahren Fehler überschätzen, wenn sie nicht sorgfältig angewendet werden.

Ziel der Arbeit ist es, einen robusten, variationalen Schätzer zu entwickeln, der $L_p$ -Kalibrierungsfehler (für beliebige $p \ge 1$ ) effizient und genau schätzt, ohne auf Binning angewiesen zu sein.

2. Methodik

Die Autoren bauen auf einem kürzlich eingeführten variationalen Rahmenwerk auf (Berta et al., 2025a) und erweitern dieses, um nicht nur „eigentliche" (proper) Verluste abzudecken, sondern auch Divergenzen, die durch $L_p$ -Normen induziert werden.

A. Variationaler Ansatz für Proper Calibration Errors

Für einen eigentlichen Verlust $\ell$ lässt sich der Risiko-Verlust des Klassifikators zerlegen in einen Kalibrierungsfehler und einen Entropie-Term. Der Kalibrierungsfehler kann als Differenz zwischen dem Risiko des ursprünglichen Modells und dem Risiko eines optimalen Rekalibrierungsmodells $g^*$ ausgedrückt werden:
$CE_{d_\ell}(f) = E[\ell(f(X), Y)] - \min_{g} E[\ell(g \circ f(X), Y)]$
Hierbei ist $g^*(f(X)) = E[Y|f(X)]$ die ideale Rekalibrierungsfunktion.

B. Erweiterung auf $L_p$ -Fehler (Hauptinnovation)

Der entscheidende Durchbruch besteht darin, dass $L_p$ -Abstände (wie $L_1$ oder $L_2$ ) keine eigentlichen Verluste im klassischen Sinne sind und daher nicht direkt mit einem festen Proper Loss geschätzt werden können.
Die Autoren nutzen einen Ansatz von Braun et al. (2025), bei dem die „Entropie-Funktion" $H$ (und damit der Verlust $\ell$ ) abhängig von der Vorhersage $f(X)$ definiert wird.

Sie definieren einen verlustabhängigen Proper Loss $\ell_{f(X)}(z, Y)$ , der so konstruiert ist, dass die zugehörige Divergenz genau dem $L_p$ -Abstand entspricht.
Durch diese Konstruktion kann der $L_p$ -Kalibrierungsfehler als Differenz der Risiken unter diesem speziellen, datenabhängigen Verlust formuliert werden.

C. Schätzung und Vermeidung von Overfitting

Um den Fehler zu schätzen, muss die Rekalibrierungsfunktion $g$ gelernt werden. Da dieselben Daten für das Lernen von $g$ und die Evaluation des Fehlers verwendet werden, besteht die Gefahr von Overfitting (was zu einer Unterschätzung des Risikos von $g \circ f$ und damit zu einer Überschätzung des Kalibrierungsfehlers führt).

Lösung: Die Autoren verwenden Cross-Validation (CV). Das Modell $g$ wird auf einem Trainings-Fold gelernt und auf einem Hold-out-Fold evaluiert.
Garantie: Dieser Ansatz garantiert, dass der geschätzte Fehler im Erwartungswert eine untere Schranke des wahren Kalibrierungsfehlers ist. Je besser $g$ die wahre Bedingung $E[Y|f(X)]$ approximiert, desto näher kommt die Schätzung dem wahren Wert.

D. Trennung von Über- und Unter-Vertrauen

Der Ansatz erlaubt es zudem, über- und unterkonfidente Vorhersagen separat zu analysieren, indem der Verlust entsprechend modifiziert wird (Clipping der Vorhersagen).

3. Wichtige Beiträge

Erweiterung des variationalen Rahmens: Die Methode ermöglicht die Schätzung beliebiger $L_p$ -Kalibrierungsfehler (inklusive $L_1$ und $L_2$ ) in binären und multiklassigen Szenarien, was mit bisherigen Binning-Methoden schwierig oder unmöglich war.
Vermeidung von Überschätzung: Durch die Nutzung von Cross-Validation wird sichergestellt, dass der Fehler nicht überschätzt wird (im Gegensatz zu nicht-variationalen Ansätzen oder Overfitting bei isotonic regression ohne CV).
Schnelle Konvergenz: Die Methode konvergiert schneller zum wahren Kalibrierungsfehler als klassische Binning-Methoden, insbesondere bei kleinen Stichprobengrößen.
Open-Source-Implementierung: Die Autoren haben ihre Methode in das Python-Paket probmetrics integriert, um eine praktische Anwendung zu ermöglichen.

4. Ergebnisse und Experimente

Die Autoren führten umfangreiche Experimente durch, um die Leistungsfähigkeit ihrer Methode zu validieren:

Synthetische Daten: Auf synthetischen Datensätzen (mit bekannten wahren Kalibrierungsfunktionen) zeigte sich, dass der CV-basierte Ansatz eine zuverlässige untere Schranke liefert und sich schneller der wahren Fehlergröße annähert als ECE (Binning) oder überangepasste isotone Regression.
Vergleich von Klassifikatoren zur Rekalibrierung: Um den Schätzer zu verbessern, wurde untersucht, welche Modelle am besten geeignet sind, um $g$ $g$ zu lernen (d.h. $Y$ $Y$ aus $f(X)$ $f (X)$ vorherzusagen).
- State-of-the-Art: Tabellen-basierte Foundation Models wie TabICLv2 und RealTabPFN-2.5 erzielten die besten Ergebnisse, laufen aber auf GPUs.
- Praktische Empfehlung: Für den allgemeinen Einsatz empfehlen die Autoren CatBoost, der initialisiert mit den nicht-kalibrierten Logits (Warm-Start) trainiert wird. Diese Strategie verbesserte die Genauigkeit der Schätzung signifikant im Vergleich zum Training von Null.
- Geschwindigkeit vs. Genauigkeit: Schnellere Methoden wie Nadaraya-Watson oder Temperature Scaling lieferten schnellere Schätzungen, waren aber weniger genau, insbesondere bei Proper Calibration Errors.
Multiklassen-Szenarien: Die Methode skaliert gut auf viele Klassen (bis zu 10 Klassen getestet), wo Binning aufgrund des Dimensionsfluchs versagt.

5. Bedeutung und Fazit

Dieses Paper adressiert eine kritische Lücke in der Evaluierung von maschinellen Lernmodellen. Die Fähigkeit, $L_p$ -Kalibrierungsfehler präzise und ohne Binning zu schätzen, ist besonders wertvoll für:

Multiklassen-Probleme: Wo Binning unpraktisch ist.
Ressourcenbeschränkte Umgebungen: Da die Methode effizienter ist als viele Alternativen, wenn geeignete Modelle (wie CatBoost) verwendet werden.
Verlässliche Metriken: Die Garantie einer unteren Schranke durch Cross-Validation bietet mehr Vertrauen in die gemessenen Kalibrierungswerten als traditionelle, oft verzerrte Schätzer.

Die Integration in probmetrics macht diese fortschrittliche Technik sofort für die Forschungs- und Entwicklungspraxis verfügbar und setzt einen neuen Standard für die Bewertung der Zuverlässigkeit von Klassifikatoren.

A Variational Estimator for LpL_pLp​ Calibration Errors

Das Grundproblem: Der lügende Wahrsager

Das alte Werkzeug: Der grobe Korb

Die neue Lösung: Der „Spiegel" und der „Variational Estimator"

Was können sie jetzt messen?

Das Ergebnis im echten Leben

1. Problemstellung

2. Methodik

A. Variationaler Ansatz für Proper Calibration Errors

B. Erweiterung auf LpL_pLp​-Fehler (Hauptinnovation)

C. Schätzung und Vermeidung von Overfitting

D. Trennung von Über- und Unter-Vertrauen

3. Wichtige Beiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

A Variational Estimator for $L_p$ Calibration Errors

B. Erweiterung auf $L_p$ -Fehler (Hauptinnovation)