Fairness under Graph Uncertainty: Achieving Interventional Fairness with Partially Known Causal Graphs over Clusters of Variables

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms vooroordeelhoudende manager bent. Je moet beslissen wie een baan krijgt of wie een lening mag krijgen. Je wilt eerlijk zijn, maar je bent bang dat je onbewust discrimineert op basis van iemands geslacht of huidskleur.

Deze paper is als een gids voor een eerlijke manager die niet alles over de wereld weet, maar wel slim genoeg is om toch de juiste beslissingen te nemen.

Hier is de uitleg, vertaald naar alledaags taal en met een paar creatieve vergelijkingen:

1. Het Probleem: De "Volledige Landkaart" is te moeilijk te vinden

Om eerlijk te zijn, moeten we begrijpen waarom dingen gebeuren. Waarom heeft iemand een lager inkomen? Is het omdat hij een vrouw is (discriminatie) of omdat hij een slechte opleiding heeft (een andere oorzaak)?

In de wereld van kunstmatige intelligentie (AI) proberen we dit te modelleren met een causaal diagram (een soort landkaart van oorzaak en gevolg).

Het oude idee: Om eerlijk te zijn, dachten onderzoekers dat je de volledige, perfecte landkaart van elke individuele factor (elke variabele) nodig had.
Het probleem: Die perfecte landkaart tekenen is als proberen elke boom, struik en steen in een heel groot bos te tellen en hun onderlinge relaties te begrijpen. Dat is bijna onmogelijk, kost enorm veel tijd en gaat vaak fout. Als je die kaart fout tekent, is je AI ook niet eerlijk.

2. De Oplossing: Kijken naar "Buurtjes" in plaats van "Bomen"

De auteurs van dit paper zeggen: "Waarom proberen we elke boom apart te tellen? Laten we gewoon kijken naar de buurtjes."

In plaats van een kaart van elke individuele variabele te maken, maken ze een cluster-kaart.

De Analogie: Stel je voor dat je in plaats van te kijken naar elke individuele bewoner van een stad, kijkt naar de wijken. Je weet misschien niet precies wie in welk huis woont, maar je weet wel dat "Wijk A" (bijv. mensen met een goede opleiding) vaak leidt tot "Wijk B" (een goed salaris).
Het voordeel: Het is veel makkelijker om de relaties tussen wijken te begrijpen dan tussen elke individuele persoon. Je hebt minder informatie nodig, maar je krijgt toch een goed beeld van hoe de stad werkt.

3. De Uitdaging: De "Onzekere" Wijkkaart

Zelfs met deze wijk-kaart (die ze een Cluster CPDAG noemen) is er nog een probleem: soms weten we niet precies welke weg in een wijk de hoofdweg is. De kaart heeft soms pijlen die nog niet vaststaan.

De vraag: Hoe kun je eerlijk zijn als je niet zeker weet welke weg de juiste is?
De oplossing van de paper: De auteurs zeggen: "Laten we niet gokken op één weg. Laten we alle mogelijke wegen in die wijk bekijken en de slechtste scenario's voorkomen."

Ze bedenken een algoritme dat alle mogelijke interpretaties van die onzekere wijk-kaart doorzoekt. Ze zeggen: "Zelfs als de kaart er zo uitziet, of zo, of zo... in elk geval moet de uitkomst eerlijk zijn."

4. De "Worst-Case" Strijdkreet

Om dit te doen, gebruiken ze een wiskundige truc (een kern-MMD met een "zwaartepunt").

De Analogie: Stel je voor dat je een groep mensen (de AI) trainen om eerlijk te zijn. Je hebt een jury van verschillende scenario's (de verschillende manieren waarop de wijk-kaart kan worden geïnterpreteerd).
De AI moet zo goed presteren dat ze niet faalt in het slechtst mogelijke scenario. Als de AI eerlijk is, zelfs als de kaart er het meest verwarrend uitziet, dan is ze echt eerlijk.
Ze straffen de AI dus niet voor één fout, maar voor de ergste fout die ze zou kunnen maken onder alle mogelijke interpretaties van de kaart.

5. Waarom is dit zo goed? (De Resultaten)

De auteurs hebben hun methode getest op veel verschillende situaties (zowel op nep-data als op echte data zoals sollicitaties en kredietverlening).

Resultaat: Hun methode (C-IFair) werkt beter dan de oude methoden.
De balans: Oude methoden waren vaak ofwel heel eerlijk maar heel onnauwkeurig (ze deden alsof ze niets wisten), of heel nauwkeurig maar oneerlijk. Deze nieuwe methode vindt de gouden middenweg: ze is bijna zo nauwkeurig als de "perfecte" methode, maar wel eerlijk, zelfs zonder de perfecte landkaart te hebben.

Samenvatting in één zin

In plaats van te proberen de perfecte, onmogelijke landkaart van de wereld te tekenen om eerlijk te zijn, tekenen ze een handige schets van de wijken en zorgen ze ervoor dat hun AI eerlijk blijft, ongeacht welke route ze binnen die wijken ook kiezen.

Het is een slimme manier om "onwetendheid" om te zetten in een kracht voor eerlijkheid.

Each language version is independently generated for its own context, not a direct translation.

Titel

Fairness onder Grafische Onzekerheid: Het Bereiken van Interventionele Fairness met Gedeeltelijk Bekende Causale Grafen over Clusters van Variabelen.

1. Probleemstelling

Algoritmen voor besluitvorming (zoals bij sollicitaties of kredietverlening) moeten niet alleen accuraat zijn, maar ook eerlijk ten opzichte van gevoelige attributen zoals geslacht en ras. Bestaande methoden voor causale fairness, zoals interventional fairness, vereisen doorgaans de kennis van de volledige onderliggende causale graaf (DAG) op variabelniveau.

De Uitdaging: Het leren van een volledige causale graaf uit observationele data is een uiterst moeilijk probleem, vooral in hoogdimensionale settings. Het vereist een groot aantal conditionele onafhankelijkheidstests, wat leidt tot cumulatieve schattingsfouten en onbetrouwbare fairness-garanties.
De Beperking van Bestaande Werk: Methoden die werken met gedeeltelijk gerichte acyclische grafen (CPDAGs) op variabelniveau blijven kwetsbaar voor fouten in hoogdimensionale scenario's.
Doel: Het bereiken van interventionele fairness in realistischere scenario's waarbij alleen kennis beschikbaar is van een cluster CPDAG (een graaf gedefinieerd over clusters van variabelen), zonder kennis van de causale structuur binnen die clusters.

2. Methodologie

De auteurs stellen een leerframework voor dat interventionele fairness bereikt door gebruik te maken van een cluster CPDAG. De aanpak bestaat uit drie hoofdblokken:

A. Enumeratie van Aanpassings-Cluster Sets (Adjustment Cluster Sets)

Om interventionele verdelingen te identificeren, moet men een geldige set van aanpassingsvariabelen (adjustment set) vinden die back-door paden blokkeert. Omdat een cluster CPDAG meerdere mogelijke DAGs vertegenwoordigt en de interne structuur onbekend is, kan er geen enkele set worden geïdentificeerd.

Oplossing: De auteurs ontwikkelen een grafisch algoritme om een verzameling van mogelijke aanpassings-sets ( $Z_1, ..., Z_M$ ) te enumereren.
Techniek: Het algoritme maakt gebruik van specifieke eigenschappen van cluster CPDAGs, zoals onafhankelijkheidsbogen (independence arcs) en scheidings-/verbindingstekens (separation/connection marks). Deze tekens geven aan hoe conditionele onafhankelijkheid werkt tussen clusters ondanks de onzekerheid binnen de clusters.
Algoritme: Het proces verloopt in twee stappen:
1. Ouder-Enumeratie: Het identificeren van mogelijke ouders van de gevoelige attributen ( $A$ ) binnen de cluster-structuur.
2. Aanvulling: Het iteratief toevoegen van extra clusters aan de sets om d-separatie te garanderen, rekening houdend met de onzekerheid veroorzaakt door ongerichte randen. Indien nodig wordt de graaf verfijnd (refinement) door clusters op te splitsen om de identificatie mogelijk te maken.

B. Straffen van het Worst-Case Scenario

Omdat het onzeker is welke van de $M$ geënumereerde sets de correcte aanpassingsset is voor de ware causale structuur, straft het framework het worst-case scenario af.

Doel: De maximale discrepantie tussen interventionele verdelingen over alle mogelijke sets $Z_m$ minimaliseren.
Definitie: De unfairness penalty $g_\theta$ is de maximale Kernel Maximum Mean Discrepancy (MMD) tussen de verdelingen $P(\hat{Y} | do(A=a), do(X_{ad}=x_{ad}))$ voor verschillende waarden van $A$ .

C. Efficiënte Schatting via Barycenter Kernel MMD

Het direct berekenen van de maximale MMD over alle paren van gevoelige attributen en alle $M$ sets is computationeel te duur ( $O(M N_A^2 N_{Xad} n^2)$ ).

Optimalisatie 1 (Barycenter Decompositie): De som van paarsgewijze MMDs wordt herschreven als de som van MMDs ten opzichte van een barycenter (gemengde verdeling) van alle interventionele verdelingen. Dit reduceert de complexiteit van $O(N_A^2)$ naar $O(N_A)$ .
Optimalisatie 2 (Random Fourier Features): Het gebruik van Random Fourier Features (RFF) om de kernel-functie te benaderen, reduceert de complexiteit van het berekenen van de MMD zelf van $O(n^2)$ naar $O(nd_{RFF})$ .
Resultaat: Een computatie-efficiënte penalty-functie die schaalt met het aantal samples en gevoelige attributen.

3. Belangrijkste Bijdragen

Grafisch Algoritme voor Enumeratie: Een nieuw algoritme dat in staat is om geldige aanpassings-sets te vinden in een cluster CPDAG, ondanks de onbekende interne structuur van de clusters, door gebruik te maken van onafhankelijkheidsbogen en markeringen.
Lerend Framework voor Worst-Case Fairness: Een methode die interventionele fairness afdwingt door de ergste onrechtvaardigheid over alle mogelijke aanpassingssets te straffen, in plaats van te vertrouwen op één enkele (mogelijk foutieve) graaf.
Efficiënte Barycenter Kernel MMD: Een nieuwe, schaalbare estimator voor unfairness die de computationele last aanzienlijk verlaagt, waardoor de methode toepasbaar is op grotere datasets.
Empirische Validatie: Uitgebreide experimenten tonen aan dat de methode (C-IFair) een betere balans vindt tussen nauwkeurigheid en eerlijkheid dan bestaande methoden (zoals $\epsilon$ -IFair en $\ell$ -IFair), vooral in hoogdimensionale settings.

4. Resultaten

De auteurs hebben hun methode (C-IFair) getest op synthetische en real-world datasets (Adult, German Credit, OULAD) en vergeleken met zes baselines (inclusief een "Oracle" die de ware graaf kent).

Synthetische Data: C-IFair behaalde de beste prestaties in zowel RMSE (nauwkeurigheid) als unfairness over alle settings (lineair en niet-lineair, verschillende dimensies). Het benaderde de prestaties van de Oracle-baseline zeer nauwkeurig, terwijl andere methoden (zoals $\ell$ -IFair) faalden in hoogdimensionale settings ( $d=15$ ) vanwege de onbetrouwbaarheid van geschatte variabel-niveau CPDAGs.
Real-World Data: Op de Adult, German Credit en OULAD datasets behaalde C-IFair de hoogste AUC (nauwkeurigheid) en de laagste unfairness onder alle geconfronteerde methoden (behalve de Oracle).
Robuustheid: De methode bleef effectief zelfs bij:
- Dichte grafen (waar het aantal mogelijke aanpassingssets groot zou kunnen zijn).
- Ongeldige partities (waar de assumptie van een acyclische cluster-graaf theoretisch wordt geschonden).
- Aanwezigheid van toelaatbare (admissible) features.

5. Betekenis en Conclusie

Dit werk is significant omdat het de barrière voor het toepassen van causale fairness in de praktijk verlaagt.

Praktische Toepasbaarheid: Het elimineert de onrealistische eis van een perfecte, volledige causale graaf. In plaats daarvan gebruikt het cluster-grafen, die veel makkelijker en betrouwbaarder te schatten zijn uit data.
Theoretische Vooruitgang: Het biedt een principieel kader om om te gaan met grafische onzekerheid door te werken met een verzameling van mogelijke aanpassingssets en het worst-case scenario te optimaliseren.
Efficiëntie: Door de combinatie van cluster-grafen en de barycenter MMD-techniek, maakt het de schaalbare implementatie van causale fairness mogelijk, zelfs bij complexe, hoogdimensionale datasets.

Kortom, de paper bewijst dat het mogelijk is om robuuste interventionele fairness te bereiken met beperkte causale kennis, wat een grote stap is richting eerlijke en verantwoorde AI-systemen in de echte wereld.