Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Deze studie met 85 deelnemers in een medisch scenario toont aan dat mensen eerlijkheid in AI-systemen niet enkel baseren op statistische uitkomsten, maar sterk beïnvloed worden door hun overtuigingen over de onderliggende oorzaken van verschillen in data-distributies, wat impliceert dat eerlijkheidsdefinities rekening moeten houden met deze context om te aligneren met menselijke verwachtingen.

Schrasing Tong, Minseok Jung, Ilaria Liccardi, Lalana Kagal

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Rechtvaardigheid van AI: Waarom "Gelijk" niet altijd "Rechtvaardig" betekent

Stel je voor dat je een supersterke kok bent die een gerecht moet bereiden voor twee verschillende dorpen: Dorp A en Dorp B. Je wilt dat het eten voor iedereen even lekker is. Maar er is een probleem: de ingrediënten die je hebt gekregen, zijn niet hetzelfde. Dorp A heeft een overvloed aan verse groenten, terwijl Dorp B slechts een paar oude wortels heeft.

Dit is precies wat deze wetenschappelijke studie onderzoekt, maar dan met Artificial Intelligence (AI) in plaats van koken. De onderzoekers van MIT willen weten: hoe vinden mensen dat een computerbeslissing eerlijk is, als de gegevens waar de computer op geleerd heeft, ongelijk zijn?

Hier is de studie in gewone taal, met een paar handige vergelijkingen.

1. Het Probleem: De "Onzichtbare" Onbalans

In de wereld van AI noemen ze dit het infra-marginaliteits-probleem. Dat klinkt als een ingewikkeld woord, maar het betekent simpelweg: De werkelijkheid is voor groepen mensen vaak verschillend.

Stel je voor dat je een AI traint om te voorspellen wie ziek wordt.

  • In Dorp A is het klimaat zonnig en zijn de mensen gezond.
  • In Dorp B is het klimaat koud en grijs, en zijn de mensen vaker ziek.

Als je AI traint op deze gegevens, zal hij in Dorp A waarschijnlijk heel goed zijn (want het is makkelijk om gezond te blijven), maar in Dorp B wat minder goed (want ziekte is daar veelvoorkomend).

De traditionele manier om "eerlijkheid" te meten, is zeggen: "De AI moet voor beide dorpen even goed presteren." Maar de onderzoekers vragen zich af: Is dat wel eerlijk als de uitgangspositie al verschillend is?

2. Het Experiment: De Medische Proef

De onderzoekers deden een experiment met 85 mensen. Ze stelden hen een hypothetische situatie voor: een AI die kanker moet detecteren bij twee verschillende bevolkingsgroepen (Groep A en Groep B).

Ze gaven de deelnemers twee soorten informatie:

  1. Hoe goed de AI was voor elke groep apart: (Bijvoorbeeld: Groep A had een AI met 90% nauwkeurigheid, Groep B had er één met 70%).
  2. Hoeveel data er beschikbaar was: (Bijvoorbeeld: Groep A had 20 keer meer medische dossiers dan Groep B).

Vervolgens kregen ze drie opties voor de "finale AI" om te beoordelen:

  • Optie A (De Gelijke): De AI doet voor beide groepen precies even goed als de beste groep (90% voor iedereen).
  • Optie B (De Compromis): De AI doet voor beide groepen even goed, maar dan op een gemiddelde (bijv. 80% voor iedereen).
  • Optie C (De Echte): De AI doet voor Groep A 90% goed en voor Groep B 70% goed. Hij behoudt dus het verschil.

3. Wat Vonden Ze? De Verassende Resultaten

De resultaten waren verrassend en laten zien dat mensen niet zo simpel denken als wiskundige formules.

Situatie 1: Geen verschil of geen info
Als de deelnemers niet wisten dat er een verschil was, of als de AI voor beide groepen even goed was, vonden ze Optie A en B (gelijkheid) het eerlijkst. Ze wilden dat iedereen dezelfde behandeling kreeg.

Situatie 2: Er is een duidelijk verschil
Maar toen ze zagen dat Groep A veel beter presteerde dan Groep B (bijvoorbeeld 90% vs 70%), en ze wisten dat dit kwam door de aard van de gegevens (bijvoorbeeld: Groep A had veel meer data of de taak was voor hen makkelijker), veranderde hun mening.

Ze vonden Optie C het eerlijkst!
Ze dachten: "Oké, het is logisch dat Groep A beter presteert omdat ze meer data hebben of omdat het voor hen makkelijker is. Als we de AI dwingen om voor Groep B ook 90% te halen, dan gaan we waarschijnlijk fouten maken of onnodige risico's nemen."

De Gouden Regel van de Mens:
Mensen vinden het eerlijk om het verschil te behouden als ze geloven dat het verschil een logische reden heeft (zoals ongelijkheid in data of moeilijkheidsgraad). Ze vinden het oneerlijk als je probeert alles gelijk te trekken, tenzij je weet dat het verschil komt van een onrechtvaardige oorzaak (zoals vooroordelen).

4. De Grote Les: Context is Koning

De kernboodschap van dit papier is als volgt:

Stel je voor dat je twee atleten laat rennen.

  • Atleet A loopt op een vlakke asfaltweg.
  • Atleet B loopt in het zand.

Als je zegt: "Jullie moeten allebei precies 10 seconden doen," dan is dat wiskundig gezien "gelijkheid", maar het is niet eerlijk. Atleet B wordt gestraft voor de omstandigheden waar hij geen controle over heeft.

De onderzoekers zeggen dat AI-systemen vaak proberen "statistische gelijkheid" af te dwingen (iedereen moet dezelfde score hebben). Maar mensen in de echte wereld kijken naar de oorzaak.

  • Als het verschil komt door onrecht (bijv. slechte data door vooroordelen), willen mensen dat het wordt gecorrigeerd.
  • Als het verschil komt door realiteit (bijv. verschillende ziektepercentages of verschillende hoeveelheden data), vinden mensen het eerlijker om dat verschil te accepteren.

Conclusie

Deze studie waarschuwt programmeurs en beleidsmakers: Stop met blindelings "gelijkheid" na te streven.

Als je een AI systeem bouwt voor de echte wereld, moet je begrijpen waarom de cijfers verschillen. Als je een systeem dwingt om perfect gelijk te zijn, terwijl de onderliggende werkelijkheid ongelijk is, creëer je misschien een systeem dat wiskundig correct is, maar dat mensen als onrechtvaardig en onbetrouwbaar ervaren.

Echte eerlijkheid betekent niet altijd hetzelfde resultaat voor iedereen; het betekent soms het erkennen van de verschillende uitgangsposities en daar eerlijk mee omgaan.