Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Die Studie zeigt, dass menschliche Fairnessurteile in KI-Systemen nicht nur von den Ergebnissen, sondern maßgeblich von den wahrgenommenen Ursachen für Leistungsunterschiede zwischen Gruppen abhängen, was die Notwendigkeit unterstreicht, den Verteilungskontext bei der Definition und Gestaltung algorithmischer Fairness zu berücksichtigen.

Schrasing Tong, Minseok Jung, Ilaria Liccardi, Lalana Kagal

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum „Gleichheit" nicht immer „Fairness" bedeutet – Eine einfache Erklärung

Stellen Sie sich vor, Sie sind der Chef eines großen Krankenhauses. Sie haben zwei Abteilungen: Abteilung A und Abteilung B. Beide sollen einen neuen KI-Assistenten nutzen, um Krebs frühzeitig zu erkennen. Aber es gibt ein Problem: Die Patienten in Abteilung A sehen anders aus als die in Abteilung B, und die Daten, die Sie haben, sind nicht perfekt gleich verteilt.

Die Forscher dieses Papers haben sich gefragt: Wie bewerten normale Menschen, ob ein KI-System fair ist, wenn die Ausgangslage für die Gruppen unterschiedlich ist?

Hier ist die Geschichte, wie sie es herausgefunden haben, mit ein paar einfachen Vergleichen.

1. Das Grundproblem: Der „Infra-Marginalitäts"-Effekt

Der Begriff „Infra-Marginalität" klingt kompliziert, ist aber eigentlich ganz einfach. Stellen Sie sich vor, Sie lassen zwei Läufer laufen:

  • Läufer A läuft auf einer flachen, asphaltierten Straße.
  • Läufer B läuft auf einem steilen, steinigen Bergpfad.

Wenn Sie beide Läufer auf die gleiche Zeit rennen lassen, wird Läufer A viel schneller sein. Das ist nicht unfair, weil er schneller ist – es ist unfair, weil die Strecke unterschiedlich war.

In der KI-Welt passiert genau das: Manchmal haben Gruppen unterschiedliche „Grundraten" (z. B. wie häufig eine Krankheit in einer Gruppe wirklich vorkommt). Wenn eine KI versucht, beide Gruppen exakt gleich gut zu behandeln (z. B. gleiche Fehlerquote), ignoriert sie oft diese natürlichen Unterschiede. Das kann dazu führen, dass die KI auf dem steinigen Pfad (der schwierigeren Gruppe) völlig versagt, weil sie versucht, die Bedingungen der asphaltierten Straße zu erzwingen.

2. Das Experiment: Was dachten die Leute?

Die Forscher haben 85 Menschen gebeten, sich in diese Situation hineinzuversetzen. Sie bekamen Szenarien gezeigt, bei denen eine KI entweder:

  1. Beide Gruppen gleich behandelt (egal wie schwer die Aufgabe für jede Gruppe war).
  2. Die Unterschiede beibehielt (wenn eine Gruppe es einfach hatte, war sie besser; wenn eine Gruppe es schwer hatte, war sie schlechter).

Das Überraschende:
Die Leute waren nicht dumm. Sie wollten nicht einfach nur „mathematische Gleichheit".

  • Szenario 1: Alles ist unklar oder gleich.
    Wenn die Leute nicht wussten, ob eine Gruppe es schwerer hatte, oder wenn beide Gruppen gleich gut waren, sagten sie: „Mach beide Gruppen gleich gut!" Das entspricht dem, was wir normalerweise unter Fairness verstehen.

  • Szenario 2: Es gibt klare Unterschiede.
    Wenn die Leute sahen, dass eine Gruppe (z. B. Gruppe A) einfach mehr Daten hatte oder die Aufgabe für sie leichter war, sagten sie: „Es ist okay, wenn die Ergebnisse unterschiedlich sind!"

    Der Vergleich: Wenn Sie sehen, dass Läufer A auf der Asphaltstraße läuft und Läufer B auf dem Berg, sagen Sie: „Okay, Läufer A ist schneller. Das ist fair, weil die Strecke anders war." Wenn Sie aber versuchen, Läufer B zu zwingen, genauso schnell zu sein wie Läufer A, dann ist das für Läufer B unfair, weil er überfordert wird.

3. Die Rolle der Datenmenge

Die Forscher haben auch geschaut, wie viel „Trainingsmaterial" (Daten) jede Gruppe hatte.

  • Wenn eine Gruppe viel mehr Daten hatte und deshalb besser war, dachten die Leute: „Na ja, das ist logisch. Sie hatten mehr Übung."
  • Aber wenn eine Gruppe weniger Daten hatte und trotzdem besser war, dachten die Leute: „Wow, das ist beeindruckend!"
  • Das Wichtigste: Die Leute konnten zwischen echten Unterschieden (die Aufgabe ist einfach schwerer) und schlechter Vorbereitung (zu wenig Daten) unterscheiden. Sie wollten keine starre Gleichheit, wenn die Gründe für die Unterschiede legitim waren.

4. Was bedeutet das für uns?

Bisher haben viele KI-Entwickler gedacht: „Fairness bedeutet, dass alle Gruppen exakt die gleichen Zahlen liefern müssen." Dieses Paper sagt: Nein, das ist nicht immer richtig.

  • Der Fehler: Wenn wir KI-Systeme zwingen, alle Gruppen exakt gleich zu behandeln, ignorieren wir die Realität. Wir machen die Systeme vielleicht für die „schwierige" Gruppe unbrauchbar, nur um die Zahlen schön gleich zu machen.
  • Die Lösung: Wir müssen die Kontexte verstehen. Wenn eine Gruppe es objektiv schwerer hat, ist es fairer, das System so zu gestalten, dass es diese Schwierigkeit anerkennt, anstatt sie zu ignorieren.

Fazit in einem Satz

Fairness ist nicht wie ein Lineal, das bei allen Gruppen exakt den gleichen Wert anzeigt. Fairness ist eher wie ein Schneider, der für jeden Kunden ein Maßanzug anfertigt: Einem großen Mann passt ein großer Anzug, einem kleinen Mann ein kleiner. Wenn Sie beiden den gleichen Anzug geben, ist das nicht fair – dann passt er keinem richtig.

Die KI muss also nicht alle gleich behandeln, sondern gerecht auf die unterschiedlichen Bedürfnisse und Umstände eingehen. Nur so gewinnen wir das Vertrauen der Menschen.