Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms vooroordeelvolle assistent hebt die foto's bekijkt en moet vertellen wat er op gebeurt. Bijvoorbeeld: "Iemand kookt" of "Iemand speelt voetbal".

Het probleem is dat deze assistent soms te veel kijkt naar wie de persoon is (bijvoorbeeld hun geslacht, kleding of huidskleur) in plaats van wat ze doen. Hierdoor kan hij denken dat alleen mannen voetballen en alleen vrouwen koken, wat natuurlijk niet eerlijk is.

Dit onderzoek van MIT probeert dit op te lossen met een slimme truc genaamd Concept Bottleneck Models (CBM). Hier is hoe het werkt, vertaald naar simpele taal:

1. Het Probleem: De "Te Slimme" Assistent

Normaal gesproken kijken AI-modellen naar een foto en gooien ze direct een antwoord naar voren. Ze zien alles tegelijk: de persoon, de achtergrond, de kleren.

Het gevaar: Als de assistent te veel details ziet, leert hij onbewuste vooroordelen. Hij denkt: "Oh, ik zie een jurk, dus dit moet 'koken' zijn."
De oplossing (CBM): In plaats van direct naar het antwoord te springen, dwingen we de assistent om eerst een lijstje te maken van concepten.
- Voorbeeld: In plaats van "Dit is een vrouw die kookt", zegt de assistent eerst: "Ik zie een pan, ik zie een fornuis, ik zie een lepel." Pas daarna zegt hij: "Dus, dit is koken."
- Dit zou eerlijker moeten zijn, omdat hij niet direct naar de persoon kijkt.

2. Het Nieuwe Probleem: De "Geheime Codes"

De onderzoekers ontdekten iets verrassends. Zelfs als de assistent alleen naar concepten kijkt (zoals "pan" of "lepel"), verbergt hij nog steeds geheime informatie.

De analogie: Stel je voor dat de assistent een lijstje maakt met woorden. Hij schrijft "pan" op, maar in zijn hoofd is dat woord gekoppeld aan "man" en "vrouw". Het woord "pan" lekt dus nog steeds informatie uit over het geslacht, zelfs als het woord zelf neutraal klinkt.
Dit noemen ze informatielek. De assistent gebruikt de concepten als een code om toch te weten wie er op de foto staat, wat zijn vooroordelen weer in de hand werkt.

3. De Drie Trucs om het Eerlijk te Maken

Om dit lek te dichten, hebben de onderzoekers drie methoden bedacht:

Truc 1: De "Top-K" Filter (Alleen de Belangrijkste)

In plaats van naar alle 1000 concepten op het lijstje te kijken, laten we de assistent alleen kijken naar de top 100 belangrijkste.

Vergelijking: Stel je voor dat je een boek leest. Als je naar elk woord kijkt, zie je veel ruis. Maar als je alleen kijkt naar de belangrijkste zinnen, begrijp je de kern beter en zie je minder afleiding.
Resultaat: Door alleen naar de sterkste signalen te kijken, verdwijnt veel van de "geheime code" over geslacht, zonder dat de assistent zijn werk (de foto herkennen) verpest.

Truc 2: Het Verwijderen van "Vooroordeel-Woorden"

De onderzoekers probeerden woorden van het lijstje te halen die duidelijk te maken hebben met geslacht (zoals "stropdas" of "make-upborstel").

Het resultaat: Dit werkte niet zo goed. De assistent was slim genoeg om de informatie over geslacht te verstoppen in andere woorden. Het was alsof je een muur probeert te slopen, maar de stenen verplaatsen zich naar een andere muur.

Truc 3: De "Tegenpartij" (Adversarial Debiasing)

Dit is de krachtigste methode. Ze trainen de assistent alsof hij een spelletje speelt tegen een tegenstander.

Het spel: De assistent moet de foto goed herkennen (bijv. "koken"). Maar er is een tegenstander die probeert te raden of de persoon op de foto een man of een vrouw is, puur op basis van de concepten die de assistent gebruikt.
De winnaar: De assistent moet zo slim worden dat hij de foto perfect herkent, maar de tegenstander niets kan raden over het geslacht. Als de tegenstander het geslacht kan raden, betekent dit dat de assistent nog steeds vooroordelen gebruikt. De assistent moet dan zijn strategie aanpassen.
Resultaat: Dit werkt het beste! Het reduceert de vooroordelen met bijna 30%, terwijl de assistent nog steeds bijna even goed blijft werken.

Waarom is dit belangrijk?

Transparantie: Omdat we weten welke concepten de assistent gebruikt (pan, lepel, fornuis), kunnen we zien waar hij fouten maakt. Bij een "zwarte doos" AI weet je nooit waarom hij een beslissing nam.
Eerlijkheid: Door deze methoden te gebruiken, zorgen we dat de AI niet discrimineert op basis van geslacht, ras of andere kenmerken, zelfs als de trainingsdata niet perfect was.
Geen extra werk: De slimme truc is dat ze dit kunnen doen zonder dat mensen handmatig moeten labelen of dat ze duizenden extra foto's nodig hebben.

Kort samengevat:
De onderzoekers hebben een manier gevonden om een slimme AI te dwingen om eerst naar de actie te kijken (koken, spelen) en niet naar de persoon. Ze hebben een "vuilnisbak" voor vooroordelen bedacht (de Top-K filter) en een "spiegel" (de tegenstander) die de AI dwingt om eerlijk te blijven. Het resultaat is een AI die niet alleen slimmer is, maar ook eerlijker en makkelijker te begrijpen voor mensen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Computer Vision-systemen hebben aanzienlijke vooruitgang geboekt, maar ze vertonen vaak bias die bestaande stereotypen versterkt (bijvoorbeeld in gezichtsherkenning of het associëren van beroepen met een specifiek geslacht). Hoewel Concept Bottleneck Models (CBM's) zijn ontworpen om interpreteerbaarheid te bieden door beelden eerst te vertalen naar menselijk begrijpelijke concepten voordat een voorspelling wordt gedaan, blijken ze niet van nature eerlijk te zijn.

De kern van het probleem is informatielekage (information leakage). Hoewel CBM's bedoeld zijn om gevoelige attributen (zoals geslachtskenmerken) te maskeren, coderen de concept-activatievectoren vaak verborgen patronen die niets te maken hebben met de semantiek van het concept zelf, maar wel informatie bevatten over gevoelige attributen. Dit leidt tot een fundamenteel compromis tussen eerlijkheid, interpreteerbaarheid en prestaties: een model heeft veel concepten nodig voor hoge nauwkeurigheid, maar dit verhoogt de kans op het lekken van bias en maakt interpretatie moeilijker.

Methodologie

De auteurs evalueren hun aanpak op de ImSitu-dataset, een dataset voor actieherkenning met ground-truth labels voor geslacht. Ze gebruiken een aangepaste versie van het Label-free CBM-framework, waarbij GPT-3 wordt gebruikt om concepten te genereren en CLIP (Contrastive Language-Image Pre-Training) voor het inferences van deze concepten.

Drie basismodellen worden vergeleken:

CLIP-ZS: Zero-shot learning zonder training.
CLIP-DNN: Een diep neurale netwerk getraind op CLIP-embeddings (zonder concepten).
CLIP-CBM: Het Concept Bottleneck Model.

Om de bias te mitigeren, worden drie specifieke technieken voorgesteld en getest:

Verlaging van Informatielekage (Top-k Concept Filter):
In plaats van alleen afhankelijk te zijn van sparsiteit (L1/L2 regularisatie) in de fully connected laag, wordt een top-k filter toegepast op de concept-activaties. Hierbij worden alleen de $k$ sterkst actieve concepten behouden en de rest op nul gezet. Dit benadert het menselijke denkproces (focus op prominente kenmerken) en reduceert het vermogen van het model om verborgen verdelingen te leren die bias bevatten.
Verwijdering van Bias-Concepten:
Concepten die sterk correleren met gevoelige attributen (bijv. "stropdas" voor mannen of "blouse" voor vrouwen) worden geïdentificeerd en verwijderd. Dit kan gebeuren door:
- Het trainen van een geslachtsclassificator en het verwijderen van concepten met de hoogste gewichten.
- Het laten "self-raten" van concepten door een LLM op basis van semantiek.
- Cruciaal: De auteurs merken op dat het verwijderen van concepten tijdens het trainen vaak faalt omdat het model nieuwe manieren vindt om bias te lekken. Effectiever is het op testtijd de activaties van deze specifieke concepten op nul te zetten.
Adversariale Debiasing:
Een adversariaal netwerk wordt toegevoerd dat probeert het geslacht te voorspellen op basis van de modeloutput. Het hoofdoel van het CBM is dan om de taaknauwkeurigheid te maximaliseren terwijl het adversariaal netwerk faalt in het voorspellen van het geslacht. Dit optimaliseert het compromis tussen prestaties en eerlijkheid.

Belangrijkste Bijdragen

Ontwikkeling van Bias-mitigatie-algoritmen specifiek voor CBM's: De paper introduceert een gestructureerde aanpak om de inherente bias in concept-gebaseerde modellen aan te pakken.
Top-k Concept Filter: Een nieuwe methode die beter presteert dan traditionele sparsiteit in het verminderen van bias, zonder dat gevoelige attributen-ground-truth nodig is tijdens het debias-proces.
Analyse van Informatielekage: Het paper demonstreert dat CBM-concepten niet puur semantisch zijn; ze coderen ook verbonden verdelingen die bias kunnen versterken.
Transparantie in Debiasing: In tegenstelling tot "black-box" modellen, maakt de CBM-architectuur het mogelijk om te zien hoe conceptgewichten verschuiven tijdens het debias-proces, wat inzicht geeft in de oorzaken van bias.

Resultaten

De experimenten op de ImSitu-dataset tonen de volgende resultaten:

Prestatie vs. Eerlijkheid: CBM's bieden een betere balans tussen eerlijkheid en interpreteerbaarheid dan DNN's, maar met een lichte daling in nauwkeurigheid.
Top-k Filter: Deze techniek levert de beste resultaten op qua compromis tussen eerlijkheid en prestatie. Bij $k=1000$ nadert de nauwkeurigheid die van een DNN, met een lagere bias-versterking.
Verwijdering van Concepten: Het puur verwijderen van concepten (tijdens training of op basis van semantiek) resulteert in zwakke verbeteringen. Het model leert de bias via andere concepten opnieuw. Alleen het op nul zetten van activaties op testtijd gaf een kleine verbetering (0,3% - 0,5% minder bias), maar ten koste van nauwkeurigheid.
Adversariale Debiasing: Dit is de meest effectieve techniek. Wanneer adversariale debiasing wordt gecombineerd met de top-k filter, wordt de bias-versterking met 28% verminderd met een verwaarloosbaar verlies aan nauwkeurigheid.
Vergelijking: Het beste model (Top-k + Adversariaal) presteert significant beter op het gebied van eerlijkheid dan eerdere werken, terwijl het interpreteerbaar blijft.

Betekenis en Conclusie

Deze studie is significant omdat het aantoont dat interpreteerbaarheid niet automatisch gelijkstaat aan eerlijkheid. Zelfs modellen die ontworpen zijn om gevoelige attributen te maskeren, kunnen deze informatie via concept-activaties lekken.

De voorgestelde aanpak biedt een praktische oplossing voor real-world scenario's waar gevoelige attributen niet altijd gelabeld zijn of waar het verzamelen van ground-truth duur en foutgevoelig is. Door de Top-k filter te combineren met adversariale debiasing, kunnen ontwikkelaars modellen bouwen die niet alleen eerlijker zijn, maar waarbij het proces van bias-reductie ook transparant en controleerbaar blijft. Dit vormt een belangrijke stap richting betrouwbare en ethische AI-systemen in toepassingen zoals gezondheidszorg en sociale media.

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

1. Het Probleem: De "Te Slimme" Assistent

2. Het Nieuwe Probleem: De "Geheime Codes"

3. De Drie Trucs om het Eerlijk te Maken

Truc 1: De "Top-K" Filter (Alleen de Belangrijkste)

Truc 2: Het Verwijderen van "Vooroordeel-Woorden"

Truc 3: De "Tegenpartij" (Adversarial Debiasing)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculating Experts Accelerates Inference for Mixture-of-Experts

A Visualization for Comparative Analysis of Regression Models

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly