Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

Die Studie zeigt, dass post-hoc-Kalibrierungsmethoden, insbesondere Platt Scaling und Isotonic Regression, die prädiktive Multiplizität in Kreditrisikomodellen effektiv reduzieren und so die algorithmische Willkür, die Minderheiten unverhältnismäßig stark belastet, mindern können.

Mustafa Cavus

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Wenn viele Experten unterschiedliche Ratschläge geben

Stellen Sie sich vor, Sie beantragen einen Kredit bei einer Bank. Die Bank nutzt einen Computer-Algorithmus, um zu entscheiden, ob Sie den Kredit bekommen oder nicht.

In der Welt des maschinellen Lernens gibt es ein Phänomen namens „Rashomon-Effekt" (benannt nach einem berühmten Film, in dem verschiedene Zeugen dieselbe Tat völlig unterschiedlich beschreiben). Das bedeutet: Es gibt oft nicht einen perfekten Computer-Modell, sondern viele verschiedene Modelle, die alle fast gleich gut funktionieren (z. B. alle haben eine Genauigkeit von 95 %).

Das Problem ist: Obwohl diese Modelle fast gleich gut sind, können sie bei derselben Person zu völlig unterschiedlichen Ergebnissen kommen.

  • Modell A sagt: „Kredit genehmigen."
  • Modell B sagt: „Kredit ablehnen."

Das nennt man vorhersagbare Vieldeutigkeit (Predictive Multiplicity). Für den Antragsteller fühlt sich das willkürlich an – als würde das Ergebnis vom „Glücksrad" abhängen, welches Modell die Bank zufällig ausgewählt hat. Besonders betroffen sind oft Menschen aus Minderheitengruppen, die seltener in den Daten vorkommen.

Die Lösung: Der „Kalibrierungs-Filter"

Die Autoren der Studie untersuchen nun, ob man dieses Problem lösen kann, indem man die Modelle „kalibriert".

Stellen Sie sich ein kalibriertes Modell wie einen ehrlichen Wetterbericht vor:

  • Ein unkalibriertes Modell sagt vielleicht: „Es gibt zu 90 % Regen", aber es regnet nur in 50 % der Fälle. Es ist zu selbstbewusst (übermütig).
  • Ein kalibriertes Modell sagt: „Es gibt zu 90 % Regen", und es regnet tatsächlich in 90 % der Fälle. Es ist ehrlich und verlässlich.

Die Studie testet drei Methoden, um diese Modelle „ehrlicher" zu machen (Platt Scaling, Isotonic Regression, Temperature Scaling). Man kann sich das wie einen Filter vorstellen, der durch alle Modelle läuft, bevor sie ihre Entscheidung treffen.

Was haben die Forscher herausgefunden?

  1. Das Problem liegt am Rand: Die Verwirrung (welches Modell stimmt?) passiert meistens dort, wo die Computer unsicher sind – also bei Leuten, die „in der Mitte" liegen (weder klar gut noch klar schlecht für einen Kredit). Bei sehr sicheren Fällen (sehr gute oder sehr schlechte Kunden) sind sich alle Modelle einig.
  2. Die Benachteiligten leiden mehr: Menschen aus Minderheitengruppen (die in den Daten seltener sind) landen viel häufiger in diesen „unsicheren Zonen". Sie tragen die Hauptlast der Willkür. Wenn die Modelle nicht kalibriert sind, ist ihre Chance, abgelehnt zu werden, oft nur eine Frage des Zufalls, welches Modell gerade ausgewählt wurde.
  3. Kalibrierung bringt Einigkeit: Als die Forscher die Modelle kalibriert haben, passierte etwas Wunderbares: Die verschiedenen Modelle begannen, sich einigermaßen einig zu werden.
    • Die „Willkür" (Obscurity) sank drastisch.
    • Besonders die Methoden Platt Scaling und Isotonic Regression waren wie ein Friedensstifter: Sie zwangen die widersprüchlichen Modelle dazu, konsistentere Entscheidungen zu treffen.
    • Das Ergebnis: Die Entscheidungen wurden stabiler und fairer, besonders für die benachteiligten Gruppen.

Die große Metapher: Das Orchester

Stellen Sie sich die verschiedenen KI-Modelle als ein Orchester vor, das ein Lied spielt.

  • Ohne Kalibrierung: Jeder Musiker spielt fast richtig, aber jeder ein bisschen anders. Das Ergebnis ist ein chaotisches Gemisch. Wenn Sie ein Solist sind (ein Antragsteller), hängt es davon ab, welcher Dirigent (welches Modell) gerade das Sagen hat, ob Sie gut klingen oder nicht.
  • Mit Kalibrierung: Die Kalibrierung ist wie ein Stimmgerät, das jedem Musiker hilft, sich auf die richtige Tonhöhe einzustellen. Plötzlich spielen alle harmonisch zusammen. Es gibt weniger Chaos, und die Entscheidung (das Lied) ist für jeden Zuhörer (jeden Antragsteller) vorhersehbarer und fairer.

Fazit für den Alltag

Diese Studie zeigt uns, dass es nicht reicht, nur zu fragen: „Ist das Modell genau?" Wir müssen auch fragen: „Ist das Modell ehrlich und stabil?"

Durch das „Kalibrieren" der Algorithmen können wir verhindern, dass Menschen aufgrund eines zufälligen Modell-Wechsels benachteiligt werden. Es ist ein wichtiger Schritt, um KI-Systeme in sensiblen Bereichen wie der Kreditvergabe nicht nur clever, sondern auch gerecht zu machen.