Integrating Group and Individual Fairness Auditing in Clinical AI: A Post-Hoc, Model-Agnostic Approach

Dit artikel introduceert EquiLense, een praktische, post-hoc en modelonafhankelijke audittool die de kloof tussen groeps- en individuele eerlijkheidsbeoordelingen in klinische AI overbrugt door gebruik te maken van een nieuwe metriek, genaamd Mean Predicted Probability Difference (MPPD), om systematische voorspellingstegenheden over demografische groepen heen te identificeren.

Oorspronkelijke auteurs: Xu, J., Hwang, Y. M., Kondareddy, S., Dormoy, I., Jing, S. L., Pillai, M., Curtin, C. M., Hernandez-Boussard, T.

Gepubliceerd 2026-04-30
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Xu, J., Hwang, Y. M., Kondareddy, S., Dormoy, I., Jing, S. L., Pillai, M., Curtin, C. M., Hernandez-Boussard, T.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme, geautomatiseerde assistent hebt die artsen helpt voorspellen hoe een patiënt het na een operatie zal doen. Deze assistent is over het algemeen uitstekend in zijn werk, maar er is een knagende zorg: Behandelt het iedereen eerlijk?

Soms kunnen deze assistenten op twee verschillende manieren onrechtvaardig zijn:

  1. Groepsongelijkheid: Het geeft consequent slechtere voorspellingen voor één hele groep mensen (zoals een specifieke ras of geslacht) in vergelijking met een andere.
  2. Individuele ongelijkheid: Het behandelt twee patiënten die medisch identiek zijn (zelfde leeftijd, dezelfde gezondheidsproblemen, dezelfde operatie) verschillend, alleen omdat ze tot verschillende groepen behoren.

Het probleem is dat de meeste hulpmiddelen die worden gebruikt om op eerlijkheid te controleren, slechts één van deze hoeken bekijken. Ze kunnen controleren of Groep A slechtere scores krijgt dan Groep B, maar missen het feit dat twee specifieke, identieke patiënten verschillend worden behandeld. Of ze controleren of identieke patiënten hetzelfde worden behandeld, maar missen het grotere plaatje van systemische vooroordelen tegen een hele groep.

Presentatie van "EquiLense": De Eerlijkheidsbril

De auteurs van dit paper hebben een nieuw hulpmiddel ontwikkeld dat EquiLense heet. Denk hierbij aan een paar "eerlijkheidsbrillen" die een arts of ontwikkelaar kan opzetten nadat het AI-model al is gebouwd en werkt. Je hoeft de motor niet opnieuw te bouwen; je kijkt gewoon door de bril om te zien wat er echt gebeurt.

EquiLense doet drie belangrijke dingen om een compleet beeld te geven:

  1. De Groepscontrole: Het kijkt naar het grote plaatje om te zien of bepaalde demografische groepen systematisch slechtere voorspellingen krijgen dan anderen.
  2. De Individuele Controle: Het vindt paren patiënten die medische tweelingen zijn (zelfde leeftijd, dezelfde medische geschiedenis) en controleert of de AI hen dezelfde voorspelling geeft. Als het aan de ene een "hoog risico"-score geeft en aan de andere een "laag risico"-score, puur vanwege hun ras of verzekering, dan is dat een rode vlag.
  3. Het "Gemiddeld Voorspeld Kansenverschil" (MPPD): Dit is het geheimzinnige ingrediënt van het paper. Het is een nieuwe manier om de kloof tussen die "medische tweelingen" te meten.

Hier is een eenvoudige analogie voor MPPD:
Stel je voor dat je een rechter bent die twee mensen veroordeelt die precies hetzelfde misdrijf hebben gepleegd met exact dezelfde geschiedenis.

  • Eerlijkheid: Beide krijgen 5 jaar.
  • Onrechtvaardigheid: De ene krijgt 5 jaar, en de andere krijgt 10 jaar, alleen omdat ze uit een andere wijk komen.

MPPD is als een liniaal die precies meet hoeveel extra tijd de tweede persoon in vergelijking met de eerste heeft gekregen, gemiddeld, in de hele rechtszaal. Het kwantificeert de "onrechtvaardige kloof" tussen mensen die gelijk zouden moeten worden behandeld.

Wat hebben ze gevonden?

Het team testte EquiLense op echte ziekenhuisdata met meer dan 59.000 chirurgische patiënten. Ze keken naar modellen die twee dingen voorspelden: delirium (verwarring na de operatie) en heropname (terugkeren naar het ziekenhuis binnen 30 dagen).

  • De verrassing: De AI-modellen waren over het algemeen behoorlijk goed in het voorspellen van uitkomsten (ze waren accuraat). Echter, toen ze de EquiLense-bril opzetten, ontdekten ze dat de modellen "medische tweelingen" nog steeds verschillend behandelden op basis van ras.
  • Het specifieke voorbeeld: Voor patiënten die medisch identiek waren aan blanke patiënten, kregen Aziatische patiënten systematisch verschillende (en minder eerlijke) voorspellingen. De "kloof" in hun scores was meetbaar en significant.
  • De reparatietest: Ze probeerden een eenvoudig experiment: ze vertelden de AI om ras en verzekeringstype te negeren bij het maken van zijn voorspellingen. Toen ze dit deden, kromp de "onrechtvaardige kloof" (de MPPD-score) aanzienlijk. Dit suggereert dat het simpelweg verwijderen van die specifieke datapunten uit het "brein" van het model ervoor zorgde dat het gelijkaardige patiënten eerlijker behandelde, zonder dat het model slechter werd in zijn werk.

Werkte dit op andere problemen?

Om ervoor te zorgen dat hun nieuwe liniaal (MPPD) echt werkte, testten ze het op twee beroemde, niet-medische datasets waar vooroordelen al bekend waren:

  1. COMPAS: Een hulpmiddel dat wordt gebruikt om te voorspellen of criminelen opnieuw zullen delicten plegen. (We weten dat dit hulpmiddel historisch gezien vooroordelen had tegen zwarte verdachten).
  2. UCI Adult Income: Een dataset die voorspelt of iemand meer dan $50.000 verdient. (We weten dat dit historische gendervooroordelen heeft).

Het resultaat: De MPPD-maatstaf van EquiLense slaagde erin om precies de groepen te markeren waarvan we al wisten dat ze onrechtvaardig werden behandeld (zwarte verdachten in de COMPAS-data en vrouwen in de inkomensdata). Dit bewees dat het hulpmiddel werkt.

Waarom is dit belangrijk?

Het paper betoogt dat we een hulpmiddel nodig hebben dat ons niet dwingt om onze huidige AI-modellen weg te gooien en opnieuw te beginnen (wat duur en moeilijk is). In plaats daarvan hebben we een manier nodig om ze te auditeren nadat ze zijn gebouwd.

EquiLense is als een kwaliteitscontrole-inspecteur voor AI in de gezondheidszorg. Het repareert de machine niet voor je, maar het geeft je een duidelijk, makkelijk te begrijpen rapportkaartje dat zegt: "Hé, je machine is goed in wiskunde, maar het behandelt deze twee identieke patiënten verschillend alleen vanwege hun achtergrond."

Dit stelt artsen en ontwikkelaars in staat om geïnformeerde keuzes te maken, zoals het beslissen of ze bepaalde datapunten (zoals ras) uit het model moeten verwijderen om het eerlijker te maken, zonder dat ze wiskundige genieën hoeven te zijn of het hele systeem vanaf nul hoeven te herbouwen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →