Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Each language version is independently generated for its own context, not a direct translation.

De Illusie van Rechtvaardigheid: Hoe AI-systemen zich kunnen verstoppen voor de controle

Stel je voor dat je een nieuwe, supergeavanceerde auto koopt. De verkoper zegt: "Deze auto is 100% veilig en milieuvriendelijk!" Maar in plaats van de auto gewoon te laten rijden, vraagt hij jou om alleen te kijken naar een specifieke, korte rit die hij zelf heeft uitgezocht. Tijdens die rit rijdt hij perfect, maar zodra je wegrijdt, blijkt dat de auto in de rest van de stad roet uitblaast.

Dit is precies wat deze wetenschappelijke paper onderzoekt, maar dan met kunstmatige intelligentie (AI) in plaats van auto's.

Het Probleem: De "Volkswagen" van AI

Overheden (zoals in de EU) willen dat AI-systemen eerlijk zijn. Ze mogen niet discrimineren op basis van geslacht, ras of leeftijd. Om dit te controleren, laten ze een "auditeur" (een controleur) een steekproef nemen van de data waarop de AI is getraind.

Het probleem is: Wie bepaalt welke steekproef de controleur krijgt?
In veel gevallen mag de eigenaar van het AI-systeem (de "auditee") zelf kiezen welke data hij laat zien.

De Oplossing van de Slechte Speler: "Fairwashing"

De auteurs van dit paper tonen aan dat een kwaadaardige AI-eigenaar een trucje kan uithalen. Ze noemen dit "Fairwashing" (vergelijkbaar met "Greenwashing", waarbij bedrijven zich groen voordoen terwijl ze dat niet zijn).

Stel je voor dat een bedrijf een AI heeft die heel vaak vrouwen afwijst voor een baan (ongerechtigd). De wet zegt: "Je moet minstens 80% van de mannen en vrouwen even vaak aannemen."
De kwaadaardige eigenaar denkt: "Oké, ik kan de AI niet veranderen, maar ik kan wel de data die ik aan de controleur geef, manipuleren."

Ze selecteren een heel specifiek, klein groepje mensen uit hun enorme database. Dit groepje ziet er voor de controleur perfect eerlijk uit (bijvoorbeeld: precies evenveel mannen en vrouwen aangenomen). Maar in werkelijkheid is de rest van hun database nog steeds vol met onrechtvaardigheid. Ze hebben een illusie van eerlijkheid gecreëerd.

Hoe doen ze dit? (De Wiskundige Magie)

De paper beschrijft twee slimme manieren om dit te doen, zonder dat de controleur het direct doorheeft:

De "Verzorgde Tuin" (Entropische Projectie):
Stel je voor dat je een bos hebt met veel dode bladeren en een paar mooie bloemen. Je wilt dat het eruit ziet als een bloementuin. In plaats van alle bladeren te verwijderen (wat te veel moeite is en opvalt), verplaats je heel voorzichtig een paar bladeren en voeg je een paar bloemen toe op strategische plekken. De tuin ziet er nog steeds uit als een bos, maar voor de korte inspectie lijkt het een perfecte tuin. De AI-eigenaar doet dit met data: ze veranderen de data zo min mogelijk, maar precies genoeg om de eerlijkheids-test te halen.
De "Mogelijke Werelden" (Optimale Transport):
Dit is alsof je een spiegelbeeld maakt. Je neemt een persoon die wordt afgewezen en zegt: "Stel je voor dat deze persoon er net iets anders uitzag, dan zou hij wel worden aangenomen." Ze verplaatsen mensen in de data naar "nabije" posities waar ze eerlijker lijken. Het is alsof je een foto bewerkt: je verandert de gezichten niet volledig, maar je past de verlichting en de hoek zo aan dat het er eerlijker uitziet, terwijl de onderliggende foto nog steeds dezelfde is.

De Detectie: Hoe de Controleur het Kan Opmerken

De paper laat zien dat deze trucs soms werken, maar niet altijd. De auteurs hebben een "antidote" ontwikkeld: Statistische Tests.

Stel je voor dat de controleur niet alleen kijkt naar de bloemen in de tuin, maar ook naar de aarde, de luchtvochtigheid en de schaduwen.

Als de eigenaar de tuin te veel heeft gemanipuleerd, zullen deze statistische tests een verschil zien tussen de "verzonnen" tuin en de echte tuin.
De paper toont aan dat als de steekproef (het aantal mensen dat je laat zien) klein is, de fraude heel makkelijk onopgemerkt blijft.
Maar als de controleur een grote steekproef eist (bijvoorbeeld 20% van alle data in plaats van 10%), wordt het voor de bedrieger bijna onmogelijk om de illusie in stand te houden zonder dat de statistiek een rode vlag opsteekt.

De Belangrijkste Les

De kernboodschap van dit paper is simpel maar krachtig:

Je kunt niet vertrouwen op een eerlijkheidstest als de verdachte zelf mag kiezen welke bewijzen hij laat zien.

Om AI echt eerlijk te houden, moeten toezichthouders (zoals de overheid) twee dingen doen:

Grote steekproeven eisen: Hoe meer data ze zien, hoe moeilijker het is om te liegen.
Zelf de data controleren: Ze mogen niet alleen kijken naar wat ze krijgen, maar moeten de volledige database kunnen inspecteren om te zien of de "verzonnen" steekproef wel echt representatief is.

Kortom: De illusie van eerlijkheid is makkelijk te creëren, maar met de juiste statistische "luchtfoto's" en grote steekproeven kunnen we de bedriegers ontmaskeren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks", geschreven in het Nederlands.

Titel: Het Ontmaskeren van de Illusie van Rechtvaardigheid: Audit van Kwetsbaarheden voor Distributie-manipulatie-aanvallen

Auteurs: Valentin Lafargue et al. (IMT Toulouse, INRIA, ANITI, IRIT, IMPA)
Doel: Het onderzoeken van hoe een kwaadaardige entiteit (de 'auditee') een dataset kan manipuleren om schijnbare rechtvaardigheid te tonen tijdens een audit, terwijl het onderliggende model in werkelijkheid discriminerend blijft.

1. Probleemstelling

Met de komst van strenge regelgeving zoals de EU AI Act, moeten AI-systemen in risicovolle domeinen worden geaudit op discriminatie. Een veelgebruikte methode is het berekenen van globale rechtvaardigheidsmetrieken, zoals de Disparate Impact (DI) ratio, op een steekproef die door de auditee wordt aangeleverd.

Het paper identificeert een kritieke kwetsbaarheid in dit proces:

Het Scenario: De auditee bezit de volledige dataset en het getrainde model. De auditor krijgt slechts een subset van de data. Een toezichthoudende autoriteit kan controleren of deze subset representatief is voor de volledige verdeling.
De Aanval: Een kwaadaardige auditee kan een subset selecteren (of manipuleren) die voldoet aan de DI-drempel (bijv. DI $\ge$ 0.8), maar die statistisch zo dicht mogelijk bij de originele, niet-representatieve verdeling ligt. Hierdoor creëert de auditee een "illusie van rechtvaardigheid" die door de auditor wordt goedgekeurd, terwijl het systeem in de praktijk discrimineert.
De Uitdaging: Hoe kunnen we detecteren of een aangeleverde steekproef echt representatief is, of dat deze is "gewassen" (fair-washed) om de audit te omzeilen?

2. Methodologie

De auteurs formuleren het probleem als een beperkte projectie van een verdeling. De doelstelling van de auditee is om een nieuwe verdeling $Q_t$ te vinden die:

Voldoet aan de rechtvaardigheidsbeperking (DI $\ge$ $t$ ).
Minimaal verschilt van de originele empirische verdeling $Q_n$ (gemeten via statistische afstanden).

De paper introduceert twee wiskundig onderbouwde strategieën voor deze manipulatie en twee strategieën voor detectie:

A. Manipulatiestrategieën (Fair-washing)

De auteurs ontwikkelen methoden om de data zo min mogelijk te veranderen terwijl de DI verbetert:

Entropische Projectie (KL-divergentie):
- Gebaseerd op het minimaliseren van de Kullback-Leibler (KL) divergentie tussen de originele en de gemanipuleerde verdeling.
- Dit resulteert in het herschalen van de gewichten van bestaande datapunten (re-sampling) om aan de DI-beperking te voldoen.
- Twee varianten: Balanced (gelijke aanpassing per klasse) en Proportional (aanpassing evenredig aan de klasgrootte).
Optimale Transport (Wasserstein-afstand):
- Gebaseerd op het minimaliseren van de Wasserstein-afstand (Monge-Kantorovich).
- Deze methode "verplaatst" individuele datapunten in de kenmerkruimte naar nieuwe posities om de uitkomst te veranderen, terwijl de geometrische structuur van de data behouden blijft.
- Varianten: Gradient-based (voor continue kenmerken) en Matching/Replace (voor tabulaire data, waarbij individuen worden vervangen door andere individuen uit de dataset).
- Een specifieke variant, MW (Matching with Wasserstein), transporteert individuen naar de dichtstbijzijnde haalbare waarden in de dataset om grenswaarden te respecteren.

B. Detectiemethoden (Statistische Tests)

Om manipulatie op te sporen, stelt de toezichthoudende autoriteit een reeks statistische tests op die de aangeleverde steekproef ( $D_n$ ) vergelijken met de volledige grondwaarheidsverdeling ( $Q_n$ ):

Hypothesetoetsen: Kolmogorov-Smirnov (KS) test.
Afstandsmetingen:
- KL-divergentie: Meet informatieverschil.
- Wasserstein-afstand: Meet de "kost" om de ene verdeling in de andere te transformeren.
- MMD (Maximum Mean Discrepancy): Een kernel-gebaseerde test voor verdelingsverschillen.
Strategie: De autoriteit toetst of de afstand tussen de aangeleverde steekproef en de originele verdeling binnen een betrouwbaarheidsinterval valt. Als de afstand te groot is, wordt de steekproef afgekeurd als niet-representatief.

3. Belangrijkste Bijdragen

Wiskundige Formalisering: Het paper introduceert een rigoureuze wiskundige raamwerk voor audit-evasie, waarbij manipulatie wordt gezien als een optimalisatieprobleem onder beperkingen (fairness constraints).
Nieuwe Aanvalsmethoden: De auteurs presenteren geavanceerde algoritmen (Entropic en Optimal Transport) die laten zien hoe een auditee een dataset kan "fair-washen" met minimale detecteerbare veranderingen.
Detectie-analyse: Systematische evaluatie van de effectiviteit van verschillende statistische tests om deze manipulaties op te sporen.
Empirische Validatie: Uitgebreide experimenten op 7 standaard datasets (o.a. Adult, Folktables, Bank Fraud) en uitbreiding naar niet-tabulaire data (CelebA afbeeldingen).
Praktische Richtlijnen: Concrete aanbevelingen voor regelgevers om audit-procedures robuuster te maken.

4. Resultaten

De experimenten leveren belangrijke inzichten op:

De Illusie is Real: Het is mogelijk om datasets te manipuleren zodat ze voldoen aan de DI-eis (bijv. 0.8) terwijl ze statistisch nauwelijks van de originele, bias-bevattende verdeling verschillen.
Beste Manipulatiemethode: De MW (Matching with Wasserstein) methode en Entropische projecties presteren het beste voor de auditee. Ze kunnen de DI aanzienlijk verbeteren terwijl ze de kans op detectie door statistische tests minimaliseren.
Detectie Kwetsbaarheden:
- Methoden die individuele kenmerken drastisch veranderen (zoals gradient-based methods) worden vrijwel altijd gedetecteerd.
- Methoden die alleen labels of sensibele attributen aanpassen (zoals Replace), of die gebruikmaken van optimale transport, zijn moeilijker te detecteren, vooral bij kleinere steekproefgroottes.
- Op datasets waar de oorspronkelijke DI al dicht bij de drempel lag (bijv. 0.69), was manipulatie bijna ondetecteerbaar omdat er weinig verandering nodig was.
Invloed van Steekproefgrootte: Dit is de meest kritieke factor. Bij kleine steekproeven (bijv. 10% van de data) is het veel makkelijker om een ongedetecteerde manipulatie uit te voeren. Bij grotere steekproeven (20% of meer) neemt de kans op detectie exponentieel toe omdat de ruimte voor "verborgen" verdelingsverschuivingen kleiner wordt.
Niet-tabulaire Data: Voor afbeeldingen (CelebA) bleek dat testen in de ruwe pixelruimte minder effectief zijn dan testen in een geleerde "descriptor"-ruimte (bijv. latent space van een CNN). Echter, als de auditee weet welke descriptor de auditor gebruikt, kan deze zich daarop aanpassen.

5. Betekenis en Aanbevelingen

Het paper concludeert dat globale rechtvaardigheidsmetrieken fundamenteel kwetsbaar zijn als de auditee controle heeft over de selectie van de audit-data. Zonder strenge controles kan een systeem dat in werkelijkheid discrimineert, succesvol een audit doorstaan.

Aanbevelingen voor regelgevers en auditors:

Controleer Representativiteit: Het is niet voldoende om alleen de DI te berekenen; de representativiteit van de aangeleverde steekproef moet strikt worden getoetst met meerdere statistische tests (KL, Wasserstein, MMD).
Vereis Grote Steekproeven: De meest effectieve maatregel tegen manipulatie is het eisen van een grote steekproefgrootte. Dit verkleint de ruimte voor onopgemerkte verdelingsverschuivingen aanzienlijk.
Toegang tot Grondwaarheid: Toezichthouders moeten, waar mogelijk, toegang hebben tot de volledige dataset of de bevoegdheid hebben om willekeurige extra steekproeven op te vragen om de verdeling te verifiëren.
Diversiteit in Tests: Gebruik een combinatie van verschillende statistische tests om manipulatie te detecteren, aangezien geen enkele test perfect is.

Conclusie:
Dit werk waarschuwt voor een "wapenwedloop" in AI-auditing. Terwijl auditees steeds slimmere methoden ontwikkelen om bias te verbergen, moeten auditors en regelgevers overstappen van simpele metriek-checks naar robuuste, statistisch onderbouwde verificaties van de datakwaliteit en representativiteit.