Procedural Fairness via Group Counterfactual Explanation

Each language version is independently generated for its own context, not a direct translation.

De Rechter die niet twee maten gebruikt: Een verhaal over eerlijke AI

Stel je voor dat je een zeer strenge rechter hebt die beslissingen neemt over wie een hypotheek krijgt of wie een baan krijgt. Deze rechter is een slimme computer (een AI). Tot nu toe hebben we alleen gekeken naar het resultaat van de rechter: "Krijgt groep A even vaak een 'ja' als groep B?" Als dat zo is, denken we: "Prima, dat is eerlijk."

Maar deze paper, geschreven door Gideon Popoola en John Sheppard, zegt: "Wacht even. Dat is niet genoeg."

Stel je voor dat de rechter twee mensen met exact hetzelfde profiel en dezelfde verdiensten een 'nee' geeft.

Bij Meneer A (uit groep 1) zegt de rechter: "Nee, omdat je te veel schulden hebt."
Bij Mevrouw B (uit groep 2) zegt de rechter: "Nee, omdat je te vaak verhuisd bent."

Het resultaat is hetzelfde (beiden krijgen een 'nee'), maar de reden (de procedure) is totaal anders. Als de rechter voor de ene groep altijd naar schulden kijkt en voor de andere groep altijd naar verhuisgeschiedenis, is er iets mis met hoe hij denkt. Hij gebruikt twee verschillende meetlatjes. Dat noemen we een gebrek aan procedurale eerlijkheid.

Het Probleem: De "Zwarte Doos" met Twee Gezichten

De meeste AI-onderzoekers kijken alleen naar de uitkomst (krijgen ze een ja of nee?). Ze kijken niet naar waarom de AI tot die conclusie komt. Hierdoor kan het gebeuren dat een AI voor de ene groep op basis van eerlijke redenen oordeelt, en voor de andere groep op basis van vooroordelen of rare patronen, terwijl de uitkomsten statistisch gezien "gelijk" lijken.

De Oplossing: GCIG (De "Wat-zou-er-gebeurd-zijn"-Spiegel)

De auteurs introduceren een nieuwe methode genaamd GCIG (Group Counterfactual Integrated Gradients). Laten we dit uitleggen met een simpele analogie:

Stel je voor dat je een spiegel hebt die niet alleen naar jou kijkt, maar ook naar een "gemiddeld persoon" uit jouw groep.

De AI kijkt naar een sollicitant.
Vervolgens vraagt de AI zichzelf: "Als deze sollicitant tot een andere groep zou behoren, zou ik dan nog steeds naar dezelfde factoren kijken om mijn beslissing te nemen?"
Als de AI zegt: "Nee, voor die andere groep zou ik naar heel andere dingen kijken," dan is de AI niet eerlijk in haar redenering.

GCIG is een soort "trainingsscherm" voor de AI. Tijdens het leren (trainen) straft de AI zichzelf als ze voor verschillende groepen verschillende redenen gebruikt om tot dezelfde conclusie te komen. Ze wordt gedwongen om dezelfde logica te gebruiken voor iedereen, ongeacht hun achtergrond.

Hoe werkt het in de praktijk?

De auteurs hebben hun methode, die ze FairX noemen, getest op echte data (zoals sollicitaties en kredietverzoeken). Ze hebben de AI getraind met drie doelen:

Goed zijn: De beslissingen moeten zo goed mogelijk zijn (hoge nauwkeurigheid).
Eerlijk in uitkomst: Evenveel ja's en nee's voor alle groepen.
Eerlijk in redenering (het nieuwe deel): De AI moet voor iedereen naar dezelfde factoren kijken om tot een beslissing te komen.

De Resultaten: Waarom is dit belangrijk?

De tests toonden aan dat:

AI's die alleen op "uitkomst-eerlijkheid" werden getraind, vaak nog steeds verschillende redenen gebruikten voor verschillende groepen. Ze waren statistisch eerlijk, maar intern scheef.
De nieuwe methode (FairX) dwong de AI om haar redenering te uniformeren. De AI begon voor iedereen naar dezelfde dingen te kijken.
Het beste nieuws: Dit maakte de AI niet minder slim. Ze bleef net zo goed beslissingen nemen, maar deed het nu op een eerlijkere manier.

De Conclusie in Eén Zin

Tot nu toe hebben we gekeken of de AI een eerlijke uitslag gaf. Deze paper laat zien dat we ook moeten kijken of de AI een eerlijke reden heeft. Het is alsof we niet alleen vragen of de score van twee teams gelijk is, maar ook of ze volgens dezelfde regels hebben gespeeld. Met GCIG zorgen we ervoor dat de AI voor iedereen dezelfde regels hanteert, zodat vertrouwen in de technologie terugkomt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Procedural Fairness via Group Counterfactual Explanation" in het Nederlands.

Titel: Procedurele Rechtvaardigheid via Groeps-Contrasterende Verklaringen (Group Counterfactual Explanation)

Auteurs: Gideon Popoola en John W. Sheppard (Montana State University)

1. Het Probleem

Huidig onderzoek naar eerlijkheid in machine learning (ML) richt zich voornamelijk op uitkomstgerichte eerlijkheid (outcome-oriented fairness), zoals Equalized Odds (EO) of Statistical Parity. Deze methoden garanderen dat de voorspellingen van een model statistisch gelijk zijn voor verschillende beschermde groepen (bijv. geslacht of etniciteit).

Echter, deze aanpak negeert procedurele eerlijkheid: de vraag hoe het model tot zijn voorspelling komt. Het is mogelijk dat twee modellen vergelijkbare uitkomst-eerlijkheid bereiken, maar fundamenteel verschillende redeneerprocessen gebruiken voor verschillende groepen. Als een model voor individuen met dezelfde uitkomst en kenmerken, maar verschillende groepsaansluiting, totaal verschillende feature-attributies (verklaringen) genereert, ondermijnt dit het vertrouwen in het systeem. Bestaande methoden gebruiken verklaringen vaak slechts voor post-hoc auditing (na het trainen) en niet als een regulatiemechanisme tijdens het trainingsproces om systematische verschillen in redenering te voorkomen.

2. Methodologie: GCIG en FairX

De auteurs introduceren een nieuw raamwerk genaamd FairX, dat procedurele eerlijkheid integreert in het trainingsproces via een regularisatieterm genaamd Group Counterfactual Integrated Gradients (GCIG).

Kernconcepten:

Procedurele Eerlijkheid als Invariantie: Het doel is om te garanderen dat de verklaring van een model voor een individu consistent blijft, ongeacht de groepscontext, mits de ware label (outcome) gelijk is.
Groeps-Conditionele Baselines: In plaats van één globale baseline te gebruiken, berekent het model gemiddelde feature-profielen voor elke combinatie van ware label ( $y$ ) en beschermde groep ( $g$ ). Dit wordt genoteerd als $b_{y,g}$ .
Contrasterende Verklaringen: Voor een input $x$ $x$ met ware label $y$ $y$ , wordt de Integrated Gradient (IG) berekend ten opzichte van de baseline van elke groep ( $b_{y,0}$ $b_{y, 0}$ en $b_{y,1}$ $b_{y, 1}$ ).
- Vraag: "Hoe zou het model deze voorspelling verklaren als dit individu tot een andere groep zou behoren (gezien dezelfde uitkomst)?"
- Als de modelredenering eerlijk is, moeten deze IG-vecotoren voor verschillende groepen vergelijkbaar zijn.

De GCIG Loss Functie:

De methode meet de variantie in de genormaliseerde attributies tussen groepen.

Bereken IG voor groep $g$ : $IG^{(g)}(x; y)$ .
Normaliseer de vector om schaalverschillen te elimineren.
Bereken de variantie $V(x; y)$ tussen de genormaliseerde attributies van de verschillende groepen.
De GCIG Loss ( $L_{GCIG}$ ) is de verwachte variantie over de dataset, gekoppeld aan de ware label.

Trainingsdoel (FairX):

Het totale trainingsdoel combineert drie componenten:
$\min_{\theta} L_{total} = L_{pred} + \lambda_{ig} L_{GCIG} + \lambda_{fair} L_{fair}$

$L_{pred}$ : Standaard voorspellingsverlies (bijv. Binary Cross-Entropy).
$L_{GCIG}$ : Straft variatie in verklaringen tussen groepen (procedurele eerlijkheid).
$L_{fair}$ : Straft uitkomstgerichte onrechtvaardigheid (bijv. Equalized Odds gap).
$\lambda_{ig}$ en $\lambda_{fair}$ : Hyperparameters die de sterkte van de regularisatie bepalen.

3. Belangrijkste Bijdragen

Formalisatie: Procedurele eerlijkheid wordt formeel gedefinieerd als invariantie van groeps-contrasterende verklaringen (conditioneel op de ware label).
GCIG Framework: Een in-processing regularisatie-methode die de variatie in feature-attributies minimaliseert door gebruik te maken van groeps-voorwaardelijke baselines.
Empirische Validatie: Bewijs dat GCIG de discrepantie in verklaringen tussen groepen aanzienlijk vermindert zonder de voorspellende prestaties of de uitkomst-eerlijkheid te schaden.

4. Resultaten

De methode is getest op vier standaard datasets (Adult Income, German Credit, COMPAS, Bank Marketing) en vergeleken met zes state-of-the-art baselines (zoals Adversarial training, Reductions, Post-processing).

Verklaringen Dispariteit (GCIG): FairX reduceerde de GCIG-waarde (maat voor onrechtvaardigheid in verklaringen) drastisch.
- Voorbeeld (German Credit): Van 0.190 (onbeperkt) naar 0.066.
- Voorbeeld (COMPAS): Van 0.193 naar 0.034.
- FairX behaalde in alle 4 datasets de beste score voor procedurele eerlijkheid.
Uitkomst-eerlijkheid (EO Gap) en Prestaties:
- FairX behaalde de beste of vergelijkbare scores voor Equalized Odds en F1-score.
- Er is geen systematische degradatie van de voorspellende nauwkeurigheid waargenomen.
Correlatie tussen Uitkomst en Procedure:
- Er is een zwakke correlatie ( $r \approx 0.24$ ) tussen uitkomst-eerlijkheid (EO) en procedurele eerlijkheid (GCIG).
- Modellen met een lage EO-gap kunnen toch hoge verschillen in verklaringen hebben. Dit bevestigt dat uitkomst-eerlijkheid geen garantie biedt voor procedurele eerlijkheid.
Ablatie-studie:
- Alleen uitkomst-eerlijkheid toevoegen verergerde de procedurele eerlijkheid licht.
- Alleen GCIG toevoegen verbeterde de procedurele eerlijkheid.
- De combinatie van beide (Full Model) gaf het beste resultaat, wat aantoont dat de doelen complementair zijn.

5. Betekenis en Conclusie

Dit werk is significant omdat het de focus verschuift van puur "wat" een model voorspelt naar "hoe" het tot die voorspelling komt.

Vertrouwen: Door te garanderen dat modellen voor verschillende groepen op een consistente manier redeneren (mits de uitkomst gelijk is), wordt het vertrouwen in AI-systemen versterkt.
Nieuwe Dimensie: Het toont aan dat procedurele eerlijkheid een onafhankelijke dimensie is die niet automatisch wordt opgelost door uitkomst-eerlijkheid.
Praktische Toepassing: De GCIG-methode biedt een praktische, trainingsgebonden oplossing (in-processing) die direct in het leerproces kan worden geïntegreerd, in plaats van alleen als audit-tool na het trainen.

De auteurs concluderen dat het integreren van procedurele overwegingen in de trainingsdoelstellingen een principieel pad is om eerlijkheid verder te ontwikkelen dan alleen statistische pariteit, hoewel uitbreiding naar meer complexe data (zoals tekst of beelden) en niet-binaire beschermde attributen nog verder onderzoek vereist.