Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems

Each language version is independently generated for its own context, not a direct translation.

🛡️ Der „Vertrauens-Test" für KI-Entscheidungen

Stellen Sie sich vor, Sie gehen zu einem Banker, um einen Kredit zu beantragen. Der Banker nutzt eine KI, die sagt: „Nein, wir geben Ihnen keinen Kredit."

Der Banker zeigt Ihnen dann die Begründung der KI: „Wir lehnen ab, weil Ihr monatliches Einkommen zu niedrig ist."

Das Problem: Was passiert, wenn Sie dem Banker sagen: „Moment mal, mein Einkommen war nur um 50 Euro falsch angegeben"? Wenn die KI dann plötzlich sagt: „Ah, dann ist es eigentlich Ihr Alter, das das Problem ist", dann ist die erste Erklärung nicht vertrauenswürdig. Sie war nur ein Zufall.

Genau dieses Problem untersucht das Papier. Es fragt: Ist die Begründung einer KI stabil, oder ändert sie sich, wenn wir die Daten nur ein winziges bisschen verrücken?

🧪 Die neue Erfindung: CIES (Der „Vertrauens-Index")

Die Autoren haben eine neue Messgröße erfunden, die sie CIES nennen (Credibility Index via Explanation Stability). Man kann sich das wie einen „Vertrauens-Warnsystem" vorstellen.

Hier ist die Idee mit einer einfachen Analogie:

1. Das „Wackel-Experiment"

Stellen Sie sich vor, Sie haben ein Haus aus Karten (das ist Ihre KI-Entscheidung).

Die alte Methode: Man schaut nur, ob das Haus stehen bleibt, wenn man leicht pustet (ob die Vorhersage „Kredit ja/nein" gleich bleibt).
Die neue Methode (CIES): Man schaut sich an, welche Karten im Inneren wackeln.
- Wenn die wichtigste Karte (z. B. „Einkommen") wackelt und durch eine andere ersetzt wird, ist das Haus instabil. Das ist schlecht!
- Wenn nur eine unwichtige Karte ganz hinten (z. B. „Lieblingsfarbe") wackelt, ist das egal. Das Haus ist stabil.

CIES misst genau das: Wie stark wackeln die wichtigsten Karten, wenn wir die Daten leicht verrauschen?

2. Die „Gewichtung" (Warum das Wichtigste wichtiger ist)

Das Besondere an CIES ist, dass es nicht alle Karten gleich behandelt.

Stellen Sie sich vor: Sie sind ein Manager. Ihnen ist es egal, ob sich die Begründung für die 15. wichtigste Sache ändert. Aber wenn sich die Begründung für die Nummer 1 ändert, ist das ein riesiges Problem.
CIES bestraft diese Änderungen der „Nummer 1" extrem hart. Es ist wie ein Richter, der sagt: „Wenn sich der Hauptgrund ändert, ist die ganze Erklärung ungültig."

🧪 Was haben die Forscher herausgefunden?

Sie haben diesen Test an echten Geschäftsdaten getestet (z. B. Kunden, die kündigen, Kreditrisiken, Mitarbeiter, die kündigen) und vier verschiedene KI-Modelle verglichen.

Hier sind die wichtigsten Erkenntnisse, übersetzt in Alltagssprache:

Nicht jede KI ist gleich stabil:
- Random Forests (eine Art KI-Meute, die viele Bäume vergleicht) waren wie ein schwerer Fels: Selbst wenn man sie schüttelte, blieben ihre Begründungen stabil.
- LightGBM und XGBoost (andere, schnellere KI-Typen) waren wie Glasvasen: Sie waren oft sehr genau in der Vorhersage, aber ihre Begründungen wackelten stark, besonders wenn die Daten unausgewogen waren (z. B. wenn es sehr wenige „schlechte" Kunden gibt).
Der „SMOTE"-Effekt (Das Auffüllen von Daten):
- Oft füllt man Daten künstlich auf, um bessere Ergebnisse zu bekommen (wie wenn man eine Suppe mit mehr Wasser auffüllt, um mehr davon zu haben).
- Die Forscher fanden heraus: Das Auffüllen der Daten macht die Vorhersage oft besser, aber es kann die Begründungen instabil machen. Man gewinnt an Genauigkeit, verliert aber an Vertrauen in die Erklärung.
Genauigkeit ≠ Vertrauen:
- Eine KI kann zu 99 % richtig liegen (hohe Genauigkeit), aber ihre Begründung ist trotzdem Unsinn (niedriger CIES-Wert). Das ist wie ein Glücksbringer, der immer das richtige Wetter vorhersagt, aber nur zufällig. Man kann ihm nicht trauen.

🎯 Warum ist das für uns wichtig?

In der echten Welt (Banken, Versicherungen, Personalabteilungen) reicht es nicht, dass die KI „richtig" liegt. Die Menschen müssen verstehen, warum sie liegt.

Für Manager: CIES ist wie ein Qualitätssiegel. Bevor man eine KI in die Praxis einführt, kann man prüfen: „Ist die Begründung stabil genug, um sie einem Kunden zu erklären?"
Für die Gesellschaft: Wenn eine KI einem Menschen den Kredit verweigert, muss die Begründung auch morgen noch gelten, wenn sich die Daten nur minimal ändern. Sonst ist das System unfair und unzuverlässig.

Zusammenfassung in einem Satz

Dieses Papier hat eine neue Waage erfunden, die nicht misst, wie genau eine KI ist, sondern wie zuverlässig ihre Ausreden sind, wenn sich die Welt ein kleines bisschen verändert – und zeigt uns, welche KI-Modelle wirklich vertrauenswürdig sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Der Einsatz von Machine-Learning-Modellen in geschäftskritischen Bereichen (z. B. Kreditwürdigkeit, Kundenabwanderung, Personalfluktuation) erfordert zunehmend Transparenz aufgrund regulatorischer Vorgaben wie der EU-KI-Verordnung und der DSGVO. Explainable AI (XAI)-Methoden wie SHAP und LIME werden standardmäßig eingesetzt, um „Black-Box"-Vorhersagen zu interpretieren.

Das zentrale Problem, das dieses Paper adressiert, ist die mangelnde Glaubwürdigkeit und Stabilität dieser Erklärungen.

Fragilität der Erklärungen: Selbst wenn eine Vorhersage stabil bleibt, können die zugrunde liegenden Erklärungen (Feature-Attributionen) bei geringfügigen, realistischen Datenstörungen (z. B. Rundungsfehler, Verzögerungen bei der Datenerfassung) drastisch ändern.
Lücken in der aktuellen Forschung:
1. Fehlende geschäftsrelevante Stabilitätsmetriken: Bestehende Metriken behandeln alle Features gleich, obwohl im Geschäftskontext Änderungen bei den wichtigsten Treibern (Top-Features) weit schwerwiegender sind als Änderungen bei nebensächlichen Features.
2. Unbekannte Auswirkungen von Datenimbalancen: Es ist unklar, wie Techniken zur Behandlung von Klassenungleichgewicht (wie SMOTE) die Stabilität von Erklärungen beeinflussen, obwohl sie die Vorhersagegenauigkeit verbessern.

2. Methodik: Der Credibility Index via Explanation Stability (CIES)

Die Autoren stellen CIES vor, eine mathematisch fundierte Metrik, die die Robustheit von XAI-Erklärungen unter realistischen Datenstörungen quantifiziert.

Kernkomponenten der Methodik:

Störungsmodell (Business Noise): Anstelle von adversarialen Angriffen wird ein realistisches Störungsmodell verwendet. Für numerische Features wird Gaußsches Rauschen hinzugefügt, das proportional zur Größe des Features ist ( $\sigma_j = \varepsilon \cdot |x_j|$ ). Dies simuliert typische Geschäftsdaten-Schwankungen.
Rank-Weighted Distance (Gewichtete Distanz):
- Herkömmliche Metriken (z. B. euklidische Distanz) gewichten alle Features gleich.
- CIES verwendet eine harmonische Gewichtung basierend auf dem Rang der Features nach ihrer SHAP-Wichtigkeit. Das wichtigste Feature ($Rank=1$) erhält das höchste Gewicht, das unwichtigste das niedrigste.
- Dies spiegelt die Geschäftslogik wider: Eine Verschiebung des Top-Features ist kritisch, eine Verschiebung des 15. Features ist irrelevant.
Berechnung des CIES-Scores:
$CIES(x) = \max\left(0, 1 - \frac{\bar{D}_w}{\|\phi(x)\|_w}\right)$
- $\bar{D}_w$ : Mittlere gewichtete Distanz zwischen der ursprünglichen Erklärung und den Erklärungen der gestörten Nachbarn.
- $\|\phi(x)\|_w$ : Gewichtete Magnitude der ursprünglichen Erklärung (Normalisierungsfaktor).
- Der Score liegt im Intervall $[0, 1]$ . Ein Wert von 1 bedeutet perfekte Stabilität, Werte nahe 0 deuten auf eine fragile, unzuverlässige Erklärung hin.

Theoretische Eigenschaften:

Das Paper beweist formale Eigenschaften von CIES, darunter:

Beschränktheit: Der Score ist immer zwischen 0 und 1.
Lipschitz-Brücke: CIES steht in Beziehung zur lokalen Lipschitz-Stetigkeit der Erklärungsfunktion.
Diskriminative Überlegenheit: Durch die Rang-Gewichtung ist CIES empfindlicher für Änderungen in den Top-Features als eine uniforme Baseline-Metrik.

3. Experimentelles Setup

Die Evaluation erfolgte über drei verschiedene Geschäftsbereiche und Datensätze:

Telco Customer Churn: Telekommunikation (26,5 % positive Klasse).
German Credit Risk: Finanzwesen (30 % positive Klasse).
IBM HR Employee Attrition: Personalwesen (stark unausgeglichen, 16,1 % positive Klasse).

Modelle: Vier baumbasierte Klassifikatoren (Random Forest, XGBoost, LightGBM, CatBoost).
Bedingungen: Vergleich zwischen rohen, unausgeglichenen Daten und SMOTE-ausgeglichenen Daten.
Erklärer: SHAP (TreeExplainer) und LIME.

4. Wichtige Ergebnisse

A. Stabilität über Modellfamilien hinweg

Random Forest (RF) liefert konsistent die stabilsten Erklärungen (höchste CIES-Werte, geringste Varianz), was auf die glatten Entscheidungsgrenzen von Bagging-Ensembles zurückzuführen ist.
CatBoost zeigt unter den Gradient-Boosting-Methoden die beste Stabilität.
LightGBM und XGBoost weisen eine höhere Variabilität auf. LightGBM zeigt insbesondere unter SMOTE-Bedingungen einen drastischen Einbruch der Erklärungsstabilität (z. B. von 0,93 auf 0,69 im HR-Datensatz), obwohl die Vorhersagegenauigkeit (F1-Score) steigt.

B. Einfluss von SMOTE (Klassenungleichgewicht)

Die Behandlung von Klassenungleichgewicht durch SMOTE hat keinen einheitlichen Effekt auf die Erklärungsstabilität:

Bei einigen Modellen (z. B. RF) ist der Effekt vernachlässigbar.
Bei anderen (insbesondere LightGBM und XGBoost) führt SMOTE zu einer signifikanten Destabilisierung der Erklärungen, auch wenn die Vorhersageleistung verbessert wird. Dies stellt einen „Credibility Cost" dar: Bessere Vorhersagen auf Kosten von weniger vertrauenswürdigen Erklärungen.

C. Trade-off zwischen Genauigkeit und Glaubwürdigkeit

Die Analyse zeigt keine direkte Korrelation zwischen Vorhersagegenauigkeit (F1-Score) und Erklärungsstabilität (CIES).

Modelle können hohe Genauigkeit bei niedriger Stabilität haben (und umgekehrt).
CatBoost und RF besetzen am häufigsten die „ideale Zone" (hohe Genauigkeit + hohe Stabilität).

D. Statistische Überlegenheit von CIES

Der rank-gewichtete CIES-Score ist in allen 24 Konfigurationen (Modelle × Datensätze × Bedingungen) statistisch signifikant ( $p < 0,01$ ) besser in der Diskriminierungsfähigkeit als eine uniforme Baseline-Metrik.
Dies bestätigt, dass die Gewichtung nach Wichtigkeit notwendig ist, um geschäftsrelevante Instabilitäten zu erfassen.

E. Vergleich mit Lipschitz-Stabilität

Im Gegensatz zur Lipschitz-Stetigkeit, die die schlimmstmögliche Sensitivität über alle Features misst (und oft durch instabile, unwichtige Features verzerrt wird), liefert CIES eine geschäftsrelevante Bewertung.

Gradient-Boosting-Modelle haben oft niedrige Lipschitz-Scores (wegen instabiler Rand-Features), aber hohe CIES-Scores, da die Top-Features stabil bleiben. CIES ist daher für Entscheidungsträger aussagekräftiger.

F. Robustheit

Die Ergebnisse sind robust gegenüber der Wahl der Gewichtungsfunktion (harmonisch, exponentiell, logarithmisch).
CIES ist explainer-agnostisch und funktioniert sowohl mit SHAP als auch mit LIME.

5. Bedeutung und Fazit

Praktische Relevanz:
CIES fungiert als ein „Credibility Warning System" für KI-gestützte Entscheidungssysteme. Es ermöglicht Geschäftsanwendern, nicht nur zu prüfen, ob ein Modell genau ist, sondern auch, ob die Begründung für eine Entscheidung unter realen Datenbedingungen vertrauenswürdig bleibt.

Hauptbeiträge:

Neue Metrik: Einführung von CIES als erste Metrik, die die Stabilität von Erklärungen unter Berücksichtigung der geschäftlichen Wichtigkeit der Features quantifiziert.
Empirische Evidenz: Nachweis, dass SMOTE und Modellwahl (insbesondere bei Boosting-Algorithmen) die Erklärungsstabilität signifikant beeinflussen können, was bei der Modellauswahl berücksichtigt werden muss.
Methodische Klarheit: Demonstration, dass Vorhersagegenauigkeit und Erklärungsstabilität unabhängige Eigenschaften sind und getrennt optimiert werden müssen.

Limitationen und Ausblick:
Die Studie beschränkt sich auf tabellarische Daten und zufälliges Gaußsches Rauschen. Zukünftige Arbeiten sollten systematische Datenverschiebungen (Distribution Shifts) und adversariale Angriffe sowie nicht-tabulare Daten (Text, Bilder) untersuchen.

Zusammenfassend bietet das Paper einen essenziellen Schritt hin zu robusteren und vertrauenswürdigen KI-Systemen im Geschäftsumfeld, indem es die „Fragilität des Vertrauens" messbar macht.