Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

Titel: Messen wir das Richtige? Warum Computer-Messlatten für KI-Erklärungen oft am menschlichen Gefühl vorbeigehen

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas verschrobenen Roboter-Freund (die Künstliche Intelligenz). Er trifft Entscheidungen, die Ihr Leben betreffen – etwa ob Sie einen Kredit bekommen oder ob eine Pilzart essbar ist. Wenn Sie ihn fragen: „Warum hast du das so entschieden?", antwortet er mit einer Gegenfaktischen Erklärung. Das klingt kompliziert, ist aber einfach: Er sagt: „Wenn du nur diesen einen kleinen Detail geändert hättest (z. B. statt 'grüner Hut' einen 'roten Hut' gehabt), hätte ich 'Nein' statt 'Ja' gesagt."

Das ist super hilfreich, oder? Aber wie wissen wir, ob diese Erklärung gut ist?

Das Problem: Der Maßstab des Roboters vs. das Gefühl des Menschen

In der Forschung gibt es zwei Gruppen, die versuchen, die Qualität dieser Erklärungen zu bewerten:

Die Computer-Experten: Sie haben eine ganze Werkzeugkiste voller automatischer Messlatten (Metriken). Diese Latten messen Dinge wie:
- Wie viele Dinge wurden geändert? (Weniger ist besser).
- Wie weit ist die neue Situation von der alten entfernt? (Nah ist besser).
- Wie ähnlich sieht die neue Situation anderen echten Daten an? (Plausibel ist besser).
- Wie sicher ist der Roboter bei seiner neuen Vorhersage?
Die Menschen: Wir sind die Nutzer. Wir schauen uns die Erklärung an und sagen: „Das verstehe ich gut", „Das klingt logisch" oder „Das fühlt sich vertrauenswürdig an."

Die große Frage der Studie: Passen die Messlatten der Computer-Experten eigentlich zu dem, was wir Menschen als „gute Erklärung" empfinden? Oder messen die Computer etwas ganz anderes, das uns egal ist?

Die Untersuchung: Ein Test mit echten Menschen

Die Forscher von der Universität Bielefeld haben einen cleveren Test gemacht. Sie haben:

Drei verschiedene Datensätze genommen (Pilze, Fettleibigkeit, Herzkrankheiten).
Tausende von Erklärungen von der KI generieren lassen.
Echte Menschen (über 160 Teilnehmer) gebeten, diese Erklärungen zu bewerten. Sie sollten sagen: „Ist das verständlich?", „Ist das plausibel?", „Bin ich zufrieden?"
Gleichzeitig haben sie alle oben genannten Computer-Messlatten auf dieselben Erklärungen angewandt.

Dann haben sie verglichen: Wenn der Computer sagt „Das ist eine perfekte Erklärung", sagt der Mensch dann auch „Das ist toll"?

Die Ergebnisse: Eine enttäuschende Entdeckung

Das Ergebnis ist fast so, als würde man versuchen, den Geschmack von Pizza mit einem Thermometer zu messen.

Keine Übereinstimmung: Die Computer-Messlatten und die menschlichen Gefühle haben kaum etwas miteinander zu tun. Wenn ein Algorithmus eine Erklärung als „perfekt" bewertet (weil sie kurz und präzise ist), findet ein Mensch sie oft langweilig, unverständlich oder sogar verdächtig.
Es kommt auf den Kontext an: Was für Pilze gut funktioniert, funktioniert nicht für Herzkrankheiten. Ein Maßstab, der bei einem Datensatz funktioniert, ist beim nächsten völlig nutzlos. Es gibt keine „Universallösung".
Mehr Messlatten helfen nicht: Man könnte denken: „Vielleicht ist nur eine Messlatte schlecht, aber wenn wir sieben davon nehmen und mischen, wird es besser?" Die Forscher haben genau das ausprobiert. Das Ergebnis? Nein. Je mehr Messlatten man kombiniert, desto ungenauer wird die Vorhersage für das menschliche Urteil. Es ist, als würde man versuchen, den Geschmack eines Gerichts zu beschreiben, indem man nur die Temperatur, das Gewicht und die Farbe des Tellers misst – egal wie viele dieser Messungen man macht, man erfährt nie, wie es schmeckt.

Die Analogie: Der Koch und der Thermometer

Stellen Sie sich vor, Sie sind ein Koch (der KI-Entwickler). Sie wollen wissen, ob Ihr neuer Kuchen (die Erklärung) den Gästen (den Nutzern) schmeckt.

Der Computer-Ansatz: Sie nehmen ein Thermometer und messen die Backtemperatur, wiegen die Zutaten und messen die Höhe des Kuchens. Sie sagen: „Der Kuchen ist perfekt, weil er exakt 180 Grad hatte und 500g wiegt!"
Der menschliche Ansatz: Die Gäste probieren den Kuchen und sagen: „Er ist zu trocken" oder „Der Geschmack ist seltsam."

Die Studie zeigt: Die Messwerte des Thermometers (die Computer-Metriken) sagen den Gästen nichts darüber, ob der Kuchen schmeckt. Man kann einen Kuchen haben, der mathematisch perfekt ist, aber geschmacklich eine Katastrophe.

Was bedeutet das für die Zukunft?

Die Forscher kommen zu einem klaren Fazit:
Wir können nicht einfach blind darauf vertrauen, dass unsere Computer-Messlatten zeigen, ob eine KI-Erklärung gut ist. Diese Latten messen technische Eigenschaften, aber sie verpassen das Wesentliche: Das menschliche Verständnis und das Vertrauen.

Die Lehre:
Wenn wir KI-Systeme entwickeln, die Menschen vertrauen, müssen wir aufhören, nur auf die Zahlen der Computer zu schauen. Wir müssen die Menschen direkt fragen, was sie brauchen. Wir brauchen neue Messlatten, die nicht nur „wie weit" oder „wie kurz" messen, sondern verstehen, was für einen Menschen eine gute Geschichte ist.

Kurz gesagt: Die KI mag ihre eigenen Maßstäbe, aber wir Menschen haben unsere eigenen Gefühle. Und bisher passen diese beiden Welten leider nicht zusammen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Explainable Artificial Intelligence (XAI) ist entscheidend für vertrauenswürdige KI-Systeme. Counterfactual Explanations (CFs) – also Erklärungen, die aufzeigen, wie sich eine Vorhersage durch minimale Änderungen der Eingabe ändern würde – sind eine der einflussreichsten Methoden in diesem Bereich.
Das zentrale Problem besteht darin, dass die Qualität von CFs derzeit fast ausschließlich durch algorithmische Metriken (z. B. Sparsity, Proximity, Plausibility) bewertet wird. Diese Metriken werden ohne menschliches Eingreifen berechnet und dienen oft als Stellvertreter (Proxies) für die Erklärungsqualität. Es fehlt jedoch an empirischen Belegen dafür, ob diese computergestützten Metriken tatsächlich mit der menschlichen Wahrnehmung von Qualität, Nützlichkeit und Vertrauen übereinstimmen. Bisherige Studien deuten darauf hin, dass automatisierte Metriken in anderen XAI-Bereichen (z. B. Feature Attribution) oft nur schwach mit menschlichen Urteilen korrelieren.

2. Methodik

Die Autoren führten eine umfassende empirische Studie durch, um die Korrelation zwischen algorithmischen Metriken und menschlichen Urteilen zu untersuchen.

Datensätze: Es wurden drei tabellarische Klassifizierungsdatensätze aus dem UCI Machine Learning Repository verwendet:
- Mushroom (MUS): Essbar vs. giftig (binär).
- Obesity Levels (OBE): Fettleibigkeitsstufen (multi-class, 7 Klassen).
- Heart Disease (HRT): Vorhandensein von Herzerkrankungen (binär).
Generierung der CFs: Ein XGBoost-Modell diente als Basis-Classifier. Die CFs wurden mit der Methode „Counterfactuals Guided by Prototypes" (implementiert in Alibi Explain) generiert.
Sampling-Strategie: Um eine repräsentative Auswahl zu gewährleisten, wurden die generierten CFs basierend auf sieben algorithmischen Metriken geclustert (k-Means). Daraus wurden insgesamt 85 CFs (30 MUS, 30 OBE, 25 HRT) für die Benutzerstudie ausgewählt.
Benutzerstudie:
- Teilnehmer: 167 Teilnehmer (via Prolific), überwiegend mit Hochschulabschluss, aber unterschiedlichem ML-Erfahrungsniveau.
- Aufgabe: Die Teilnehmer bewerteten jede CF auf einer 4-Punkte-Likert-Skala (1 = „Definitiv Ja" bis 4 = „Definitiv Nein") entlang fünf Dimensionen:
  1. Wahrgenommene Genauigkeit (Perceived Accuracy)
  2. Verständlichkeit (Understandability)
  3. Plausibilität (Plausibility)
  4. Angemessenheit der Details (Sufficiency of Detail)
  5. Zufriedenheit (User Satisfaction)
- Aggregation: Die fünf Dimensionen wurden zu einem kombinierten Qualitätsscore (CQS) zusammengefasst, da sie eine hohe interne Konsistenz aufwiesen.
Automatisierte Metriken: Für dieselben CFs wurden sieben gängige Metriken berechnet: Sparsity, Proximity, Closeness to training data, Diversity, Oracle Score, Trust Score und Completeness.
Analyse:
1. Korrelationsanalyse: Pearson-Korrelationen zwischen einzelnen Metriken und den menschlichen Bewertungen.
2. Prädiktive Modellierung: Supervised Learning (Lineare Regression, kNN, Random Forest, XGBoost, GAMs) zur Vorhersage der menschlichen Bewertungen basierend auf Kombinationen der Metriken (Power-Set-Analyse aller 127 Teilmengen der 7 Metriken).

3. Wichtige Beiträge

Kontrollierte Benutzerstudie: Eine systematische Evaluation von CFs über drei verschiedene Datensätze hinweg unter Berücksichtigung mehrerer Qualitätsdimensionen.
Umfassender Metrik-Abgleich: Berechnung und Vergleich eines breiten Spektrums etablierter automatischer CF-Metriken mit den menschlichen Ratings.
Analyse von Metrik-Kombinationen: Untersuchung, ob die Kombination mehrerer Metriken die Vorhersagekraft für menschliche Urteile verbessert (im Gegensatz zur isolierten Betrachtung).
Empirische Evidenz für eine Diskrepanz: Nachweis, dass aktuelle Metriken keine zuverlässigen Proxies für menschliche Bewertungen sind.

4. Ergebnisse

Die Ergebnisse zeigen eine deutliche Diskrepanz zwischen algorithmischen Metriken und menschlicher Wahrnehmung:

Schwache Korrelationen: Die Korrelationen zwischen einzelnen Metriken und menschlichen Ratings sind generell schwach und stark datensatzabhängig.
- Im Mushroom-Datensatz zeigten Metriken wie Sparsity und Proximity moderate negative Korrelationen mit der Zufriedenheit (Nutzer bevorzugten weniger Änderungen).
- Im Obesity-Datensatz zeigten Metriken wie Diversity und Trust Score positive Korrelationen (Nutzer bevorzugten umfassendere Erklärungen).
- Im Heart Disease-Datensatz waren die Korrelationen fast durchgehend nicht signifikant.
- Nur der Trust Score zeigte über alle Datensätze hinweg eine signifikante, aber immer noch schwache Korrelation ( $r \approx 0.3$ ) mit dem CQS.
Versagen prädiktiver Modelle:
- Lineare Modelle: Lineare Regressionen scheiterten komplett (mittleres $R^2 \approx -1.25$ ), was bedeutet, dass lineare Kombinationen der Metriken keine Varianz in den menschlichen Urteilen erklären können.
- Nicht-lineare Modelle: Auch fortschrittliche Modelle wie Random Forests oder XGBoost zeigten nur sehr schwache Vorhersagekraft (bestes $R^2 \approx 0.33$ , aber im Durchschnitt deutlich niedriger).
- Effekt der Komplexität: Die Erhöhung der Anzahl der verwendeten Metriken führte nicht zu einer Verbesserung der Vorhersageleistung. Im Gegenteil: Sobald mehr als 3–4 Metriken kombiniert wurden, verschlechterte sich die Performance oft aufgrund von Rauschen. Dies deutet darauf hin, dass die aktuellen Metriken keine komplementären Informationen liefern, die für das menschliche Urteil relevant sind.

5. Bedeutung und Fazit

Die Studie kommt zu dem Schluss, dass weit verbreitete algorithmische Evaluierungsmetriken für Counterfactual Explanations die von Nutzern wahrgenommene Erklärungsqualität nicht widerspiegeln.

Strukturelle Lücke: Es besteht eine fundamentale Lücke zwischen dem, was Metriken quantifizieren (z. B. mathematische Nähe oder Sparsamkeit), und dem, was Nutzer als gute Erklärung empfinden (kontextabhängig, psychologisch plausibel).
Kritik an aktuellen Praktiken: Die gängige Praxis, sich bei der Evaluierung von XAI-Methoden ausschließlich auf algorithmische Metriken zu verlassen, ist irreführend, da diese keine zuverlässigen Proxies für menschliches Vertrauen oder Verständnis darstellen.
Ausblick: Die Autoren fordern einen Paradigmenwechsel hin zu humanzentrierten Evaluierungsansätzen. Zukünftige Metriken müssen stärker auf menschlicher Wahrnehmung und psychologischen Modellen basieren und nicht nur auf reinen Rechenoptimierungen. Die Studie unterstreicht die Notwendigkeit, XAI-Systeme so zu bewerten, dass sie tatsächlich den menschlichen Bedürfnissen gerecht werden.

Do Metrics for Counterfactual Explanations Align with User Perception?

Das Problem: Der Maßstab des Roboters vs. das Gefühl des Menschen

Die Untersuchung: Ein Test mit echten Menschen

Die Ergebnisse: Eine enttäuschende Entdeckung

Die Analogie: Der Koch und der Thermometer

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers