Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Wenn viele Experten unterschiedliche Ratschläge geben

Stellen Sie sich vor, Sie beantragen einen Kredit bei einer Bank. Die Bank nutzt einen Computer-Algorithmus, um zu entscheiden, ob Sie den Kredit bekommen oder nicht.

In der Welt des maschinellen Lernens gibt es ein Phänomen namens „Rashomon-Effekt" (benannt nach einem berühmten Film, in dem verschiedene Zeugen dieselbe Tat völlig unterschiedlich beschreiben). Das bedeutet: Es gibt oft nicht einen perfekten Computer-Modell, sondern viele verschiedene Modelle, die alle fast gleich gut funktionieren (z. B. alle haben eine Genauigkeit von 95 %).

Das Problem ist: Obwohl diese Modelle fast gleich gut sind, können sie bei derselben Person zu völlig unterschiedlichen Ergebnissen kommen.

Modell A sagt: „Kredit genehmigen."
Modell B sagt: „Kredit ablehnen."

Das nennt man vorhersagbare Vieldeutigkeit (Predictive Multiplicity). Für den Antragsteller fühlt sich das willkürlich an – als würde das Ergebnis vom „Glücksrad" abhängen, welches Modell die Bank zufällig ausgewählt hat. Besonders betroffen sind oft Menschen aus Minderheitengruppen, die seltener in den Daten vorkommen.

Die Lösung: Der „Kalibrierungs-Filter"

Die Autoren der Studie untersuchen nun, ob man dieses Problem lösen kann, indem man die Modelle „kalibriert".

Stellen Sie sich ein kalibriertes Modell wie einen ehrlichen Wetterbericht vor:

Ein unkalibriertes Modell sagt vielleicht: „Es gibt zu 90 % Regen", aber es regnet nur in 50 % der Fälle. Es ist zu selbstbewusst (übermütig).
Ein kalibriertes Modell sagt: „Es gibt zu 90 % Regen", und es regnet tatsächlich in 90 % der Fälle. Es ist ehrlich und verlässlich.

Die Studie testet drei Methoden, um diese Modelle „ehrlicher" zu machen (Platt Scaling, Isotonic Regression, Temperature Scaling). Man kann sich das wie einen Filter vorstellen, der durch alle Modelle läuft, bevor sie ihre Entscheidung treffen.

Was haben die Forscher herausgefunden?

Das Problem liegt am Rand: Die Verwirrung (welches Modell stimmt?) passiert meistens dort, wo die Computer unsicher sind – also bei Leuten, die „in der Mitte" liegen (weder klar gut noch klar schlecht für einen Kredit). Bei sehr sicheren Fällen (sehr gute oder sehr schlechte Kunden) sind sich alle Modelle einig.
Die Benachteiligten leiden mehr: Menschen aus Minderheitengruppen (die in den Daten seltener sind) landen viel häufiger in diesen „unsicheren Zonen". Sie tragen die Hauptlast der Willkür. Wenn die Modelle nicht kalibriert sind, ist ihre Chance, abgelehnt zu werden, oft nur eine Frage des Zufalls, welches Modell gerade ausgewählt wurde.
Kalibrierung bringt Einigkeit: Als die Forscher die Modelle kalibriert haben, passierte etwas Wunderbares: Die verschiedenen Modelle begannen, sich einigermaßen einig zu werden.
- Die „Willkür" (Obscurity) sank drastisch.
- Besonders die Methoden Platt Scaling und Isotonic Regression waren wie ein Friedensstifter: Sie zwangen die widersprüchlichen Modelle dazu, konsistentere Entscheidungen zu treffen.
- Das Ergebnis: Die Entscheidungen wurden stabiler und fairer, besonders für die benachteiligten Gruppen.

Die große Metapher: Das Orchester

Stellen Sie sich die verschiedenen KI-Modelle als ein Orchester vor, das ein Lied spielt.

Ohne Kalibrierung: Jeder Musiker spielt fast richtig, aber jeder ein bisschen anders. Das Ergebnis ist ein chaotisches Gemisch. Wenn Sie ein Solist sind (ein Antragsteller), hängt es davon ab, welcher Dirigent (welches Modell) gerade das Sagen hat, ob Sie gut klingen oder nicht.
Mit Kalibrierung: Die Kalibrierung ist wie ein Stimmgerät, das jedem Musiker hilft, sich auf die richtige Tonhöhe einzustellen. Plötzlich spielen alle harmonisch zusammen. Es gibt weniger Chaos, und die Entscheidung (das Lied) ist für jeden Zuhörer (jeden Antragsteller) vorhersehbarer und fairer.

Fazit für den Alltag

Diese Studie zeigt uns, dass es nicht reicht, nur zu fragen: „Ist das Modell genau?" Wir müssen auch fragen: „Ist das Modell ehrlich und stabil?"

Durch das „Kalibrieren" der Algorithmen können wir verhindern, dass Menschen aufgrund eines zufälligen Modell-Wechsels benachteiligt werden. Es ist ein wichtiger Schritt, um KI-Systeme in sensiblen Bereichen wie der Kreditvergabe nicht nur clever, sondern auch gerecht zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert zwei kritische Herausforderungen beim Einsatz von Machine-Learning-Modellen in hochriskanten Umgebungen (z. B. Kreditwürdigkeitsprüfung):

Vorhersagemultiplizität (Predictive Multiplicity): Das Phänomen, dass mehrere Modelle mit nahezu identischer Leistung (innerhalb der sogenannten Rashomon-Menge) für denselben Datensatz völlig unterschiedliche Vorhersagen treffen können. Dies führt zu algorithmischer Willkür, bei der das Ergebnis eines Individuums vom zufälligen Auswahlprozess des Modells abhängt.
Kalibrierungsmangel: Viele moderne Klassifikatoren sind schlecht kalibriert, d. h., ihre vorhergesagten Wahrscheinlichkeiten spiegeln nicht die tatsächlichen empirischen Häufigkeiten wider (oft mit systematischer Überkonfidenz).

Die zentrale Forschungsfrage ist, wie diese beiden Phänomene interagieren: Konzentriert sich die Vorhersagemultiplizität in Bereichen niedriger Vorhersagesicherheit? Und kann eine nachträgliche Kalibrierung (Post-hoc Calibration) als Regularisierungsmechanismus dienen, um die Willkür zu reduzieren und die Stabilität von Entscheidungen zu erhöhen, ohne die Vorhersagegenauigkeit zu opfern?

2. Methodik

Die Studie verwendet einen empirischen Ansatz mit folgenden Komponenten:

Datensätze: Es wurden neun diverse Benchmark-Datensätze für Kreditrisiko-Scoring verwendet (z. B. german_credit, give_me_credit), die sich in Größe (1.000 bis 251.503 Beobachtungen), Feature-Anzahl und Klassenungleichgewicht (Imbalance Ratio) unterscheiden.
Modellierung (Rashomon-Menge):
- Mithilfe von h2o AutoML wurden diverse Klassifikatoren (Gradient Boosting, Random Forests, Deep Neural Networks, GLMs) trainiert.
- Die Rashomon-Menge $R(\epsilon)$ wurde definiert als die Menge aller Modelle, deren AUC-Wert innerhalb eines Toleranzbereichs von 5 % ( $\epsilon = 0,05$ ) des besten Modells liegt.
Metriken zur Multiplizität:
- Obscurity (Verschleierung): Die durchschnittliche Diskrepanzrate eines einzelnen Datenpunkts gegenüber dem besten Modell innerhalb der Rashomon-Menge. Dies ist die primäre Metrik, da sie kontinuierlich ist und die Intensität von Konflikten misst.
- Ambiguity & Discrepancy: Ergänzende Metriken für binäre Konflikte und globale Diskrepanzen.
- Confidence: Die durchschnittliche Vorhersagesicherheit der Modelle.
Kalibrierungsmethoden: Auf jedes Modell in der Rashomon-Menge wurden drei Post-hoc-Kalibrierungstechniken angewendet:
1. Platt Scaling: Parametrische Methode (logistische Transformation).
2. Isotonic Regression: Nicht-parametrische Methode (monoton steigende Funktion).
3. Temperature Scaling: Skalierung der Logits (speziell für neuronale Netze).
Statistische Analyse: Es wurden Wilcoxon-Rangsummentests und stratifizierte Dunn-Tests (mit Bonferroni-Korrektur) durchgeführt, um signifikante Unterschiede zwischen Mehrheits- und Minderheitsklassen sowie zwischen kalibrierten und nicht-kalibrierten Modellen zu prüfen.

3. Wichtige Ergebnisse

Inverse Korrelation zwischen Sicherheit und Multiplizität: Es besteht ein klarer Trend: In Bereichen hoher Vorhersagesicherheit (> 0,90) konvergieren die Modelle zu einem Konsens (geringe Obscurity). In Bereichen niedriger bis mittlerer Sicherheit (nahe der Entscheidungsgrenze) steigt die Obscurity stark an.
Ungleiche Belastung der Minderheitsklasse:
- Beobachtungen der Minderheitsklasse (oft Hochrisiko-Kandidaten) tragen eine unverhältnismäßig hohe „Multiplizitätsbelastung". Sie befinden sich häufiger in Quadranten mit hoher Obscurity und niedriger Konfidenz.
- Statistische Tests bestätigten signifikante Unterschiede ( $p < .001$ ): Minderheitsklassen haben signifikant höhere Obscurity-Werte und niedrigere Konfidenz-Werte als die Mehrheitsklasse.
Wirksamkeit der Kalibrierung:
- Alle drei Kalibrierungsmethoden reduzierten die Vorhersagemultiplizität (Obscurity) signifikant.
- Platt Scaling und Isotonic Regression erwiesen sich als am robustesten. Sie reduzierten die Obscurity für die Mehrheitsklasse fast vollständig und senkten sie für die Minderheitsklasse signifikant (von ca. 0,14 auf unter 0,10).
- Temperature Scaling zeigte ebenfalls eine Reduktion, war aber weniger aggressiv in der Konsensbildung für Minderheitsinstanzen.
Differenzierte Wirkung auf Konfidenz:
- Während Platt Scaling und Isotonic Regression die Konfidenz der Mehrheitsklasse realistisch anpassten, zeigte sich bei der Minderheitsklasse eine Diskrepanz: Nur Platt Scaling konnte die Konfidenz der Minderheitsklasse signifikant verbessern. Isotonic Regression und Temperature Scaling zeigten hier keine signifikanten Änderungen im Vergleich zum Rohzustand.

4. Hauptbeiträge

Verknüpfung von Kalibrierung und Multiplizität: Das Paper schließt eine Forschungslücke, indem es zeigt, dass Kalibrierung nicht nur die Wahrscheinlichkeitstreue verbessert, sondern auch als Mechanismus zur Reduzierung der Vorhersagemultiplizität (Willkür) fungiert.
Empirischer Nachweis systematischer Ungleichheit: Es wird empirisch belegt, dass die Unsicherheit und Willkür von Modellentscheidungen systematisch Minderheitsgruppen stärker betrifft als Mehrheitsgruppen.
Kalibrierung als Konsens-Enforcer: Die Studie demonstriert, dass Kalibrierung als eine Art „Konsens-Schicht" wirkt, die diverse, gleichwertige Modelle dazu bringt, stabilere und weniger willkürliche Entscheidungen zu treffen.
Methodische Empfehlung: Für Kreditrisiko-Szenarien wird empfohlen, Kalibrierung nicht als isolierte Korrektur, sondern als integralen Bestandteil des Pipelines zu betrachten, insbesondere um Fairness-Prozesse zu unterstützen.

5. Bedeutung und Implikationen

Die Ergebnisse haben weitreichende Konsequenzen für die Regulierung und Praxis von KI-Systemen:

Regulatorische Relevanz: Im Kontext des EU-AI-Gesetzes (AI Act), das Transparenz und individuelle Genauigkeit für Hochrisiko-Systeme fordert, bietet die Reduzierung der Vorhersagemultiplizität durch Kalibrierung einen praktischen Weg, um zu belegen, dass eine Entscheidung stabil und datenbasiert ist und nicht nur ein „Glücksfall" der Modellauswahl.
Prozedurale Fairness: Da Minderheitsgruppen unverhältnismäßig stark von der Willkür der Modellwahl betroffen sind, kann die Anwendung von Kalibrierung (insbesondere Platt Scaling) dazu beitragen, diese Ungleichheit zu mildern und fairen, stabilen Entscheidungen Vorrang zu geben.
Praxisempfehlung: Entwickler sollten nicht nur auf aggregierte Genauigkeitsmetriken achten, sondern Obscurity-Metriken und Kalibrierung in den Entwicklungsprozess integrieren, um Systeme zu schaffen, die sowohl statistisch fundiert als auch individuell fair sind.

Zusammenfassend zeigt das Paper, dass gut kalibrierte Modelle zu konsistenteren Endvorhersagen führen und dass Kalibrierung ein entscheidendes Werkzeug ist, um die algorithmische Willkür in hochriskanten Entscheidungsszenarien zu minimieren.

Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

Das Problem: Wenn viele Experten unterschiedliche Ratschläge geben

Die Lösung: Der „Kalibrierungs-Filter"

Was haben die Forscher herausgefunden?

Die große Metapher: Das Orchester

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing