Do Metrics for Counterfactual Explanations Align with User Perception?

Die Studie zeigt, dass gängige algorithmische Metriken zur Bewertung von kontrafaktischen Erklärungen nur schwach mit menschlichen Einschätzungen korrelieren und deren Qualität aus Nutzersicht oft nicht angemessen widerspiegeln, was die Notwendigkeit menschzentrierter Evaluierungsansätze unterstreicht.

Felix Liedeker, Basil Ell, Philipp Cimiano, Christoph Düsing

Veröffentlicht 2026-03-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Messen wir das Richtige? Warum Computer-Messlatten für KI-Erklärungen oft am menschlichen Gefühl vorbeigehen

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas verschrobenen Roboter-Freund (die Künstliche Intelligenz). Er trifft Entscheidungen, die Ihr Leben betreffen – etwa ob Sie einen Kredit bekommen oder ob eine Pilzart essbar ist. Wenn Sie ihn fragen: „Warum hast du das so entschieden?", antwortet er mit einer Gegenfaktischen Erklärung. Das klingt kompliziert, ist aber einfach: Er sagt: „Wenn du nur diesen einen kleinen Detail geändert hättest (z. B. statt 'grüner Hut' einen 'roten Hut' gehabt), hätte ich 'Nein' statt 'Ja' gesagt."

Das ist super hilfreich, oder? Aber wie wissen wir, ob diese Erklärung gut ist?

Das Problem: Der Maßstab des Roboters vs. das Gefühl des Menschen

In der Forschung gibt es zwei Gruppen, die versuchen, die Qualität dieser Erklärungen zu bewerten:

  1. Die Computer-Experten: Sie haben eine ganze Werkzeugkiste voller automatischer Messlatten (Metriken). Diese Latten messen Dinge wie:

    • Wie viele Dinge wurden geändert? (Weniger ist besser).
    • Wie weit ist die neue Situation von der alten entfernt? (Nah ist besser).
    • Wie ähnlich sieht die neue Situation anderen echten Daten an? (Plausibel ist besser).
    • Wie sicher ist der Roboter bei seiner neuen Vorhersage?
  2. Die Menschen: Wir sind die Nutzer. Wir schauen uns die Erklärung an und sagen: „Das verstehe ich gut", „Das klingt logisch" oder „Das fühlt sich vertrauenswürdig an."

Die große Frage der Studie: Passen die Messlatten der Computer-Experten eigentlich zu dem, was wir Menschen als „gute Erklärung" empfinden? Oder messen die Computer etwas ganz anderes, das uns egal ist?

Die Untersuchung: Ein Test mit echten Menschen

Die Forscher von der Universität Bielefeld haben einen cleveren Test gemacht. Sie haben:

  • Drei verschiedene Datensätze genommen (Pilze, Fettleibigkeit, Herzkrankheiten).
  • Tausende von Erklärungen von der KI generieren lassen.
  • Echte Menschen (über 160 Teilnehmer) gebeten, diese Erklärungen zu bewerten. Sie sollten sagen: „Ist das verständlich?", „Ist das plausibel?", „Bin ich zufrieden?"
  • Gleichzeitig haben sie alle oben genannten Computer-Messlatten auf dieselben Erklärungen angewandt.

Dann haben sie verglichen: Wenn der Computer sagt „Das ist eine perfekte Erklärung", sagt der Mensch dann auch „Das ist toll"?

Die Ergebnisse: Eine enttäuschende Entdeckung

Das Ergebnis ist fast so, als würde man versuchen, den Geschmack von Pizza mit einem Thermometer zu messen.

  1. Keine Übereinstimmung: Die Computer-Messlatten und die menschlichen Gefühle haben kaum etwas miteinander zu tun. Wenn ein Algorithmus eine Erklärung als „perfekt" bewertet (weil sie kurz und präzise ist), findet ein Mensch sie oft langweilig, unverständlich oder sogar verdächtig.
  2. Es kommt auf den Kontext an: Was für Pilze gut funktioniert, funktioniert nicht für Herzkrankheiten. Ein Maßstab, der bei einem Datensatz funktioniert, ist beim nächsten völlig nutzlos. Es gibt keine „Universallösung".
  3. Mehr Messlatten helfen nicht: Man könnte denken: „Vielleicht ist nur eine Messlatte schlecht, aber wenn wir sieben davon nehmen und mischen, wird es besser?" Die Forscher haben genau das ausprobiert. Das Ergebnis? Nein. Je mehr Messlatten man kombiniert, desto ungenauer wird die Vorhersage für das menschliche Urteil. Es ist, als würde man versuchen, den Geschmack eines Gerichts zu beschreiben, indem man nur die Temperatur, das Gewicht und die Farbe des Tellers misst – egal wie viele dieser Messungen man macht, man erfährt nie, wie es schmeckt.

Die Analogie: Der Koch und der Thermometer

Stellen Sie sich vor, Sie sind ein Koch (der KI-Entwickler). Sie wollen wissen, ob Ihr neuer Kuchen (die Erklärung) den Gästen (den Nutzern) schmeckt.

  • Der Computer-Ansatz: Sie nehmen ein Thermometer und messen die Backtemperatur, wiegen die Zutaten und messen die Höhe des Kuchens. Sie sagen: „Der Kuchen ist perfekt, weil er exakt 180 Grad hatte und 500g wiegt!"
  • Der menschliche Ansatz: Die Gäste probieren den Kuchen und sagen: „Er ist zu trocken" oder „Der Geschmack ist seltsam."

Die Studie zeigt: Die Messwerte des Thermometers (die Computer-Metriken) sagen den Gästen nichts darüber, ob der Kuchen schmeckt. Man kann einen Kuchen haben, der mathematisch perfekt ist, aber geschmacklich eine Katastrophe.

Was bedeutet das für die Zukunft?

Die Forscher kommen zu einem klaren Fazit:
Wir können nicht einfach blind darauf vertrauen, dass unsere Computer-Messlatten zeigen, ob eine KI-Erklärung gut ist. Diese Latten messen technische Eigenschaften, aber sie verpassen das Wesentliche: Das menschliche Verständnis und das Vertrauen.

Die Lehre:
Wenn wir KI-Systeme entwickeln, die Menschen vertrauen, müssen wir aufhören, nur auf die Zahlen der Computer zu schauen. Wir müssen die Menschen direkt fragen, was sie brauchen. Wir brauchen neue Messlatten, die nicht nur „wie weit" oder „wie kurz" messen, sondern verstehen, was für einen Menschen eine gute Geschichte ist.

Kurz gesagt: Die KI mag ihre eigenen Maßstäbe, aber wir Menschen haben unsere eigenen Gefühle. Und bisher passen diese beiden Welten leider nicht zusammen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →