Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Dit paper introduceert drie technieken om bias in Concept Bottleneck Models te verminderen, waardoor deze modellen zowel eerlijker als interpreteerbaarder worden voor beeldclassificatie.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms vooroordeelvolle assistent hebt die foto's bekijkt en moet vertellen wat er op gebeurt. Bijvoorbeeld: "Iemand kookt" of "Iemand speelt voetbal".

Het probleem is dat deze assistent soms te veel kijkt naar wie de persoon is (bijvoorbeeld hun geslacht, kleding of huidskleur) in plaats van wat ze doen. Hierdoor kan hij denken dat alleen mannen voetballen en alleen vrouwen koken, wat natuurlijk niet eerlijk is.

Dit onderzoek van MIT probeert dit op te lossen met een slimme truc genaamd Concept Bottleneck Models (CBM). Hier is hoe het werkt, vertaald naar simpele taal:

1. Het Probleem: De "Te Slimme" Assistent

Normaal gesproken kijken AI-modellen naar een foto en gooien ze direct een antwoord naar voren. Ze zien alles tegelijk: de persoon, de achtergrond, de kleren.

  • Het gevaar: Als de assistent te veel details ziet, leert hij onbewuste vooroordelen. Hij denkt: "Oh, ik zie een jurk, dus dit moet 'koken' zijn."
  • De oplossing (CBM): In plaats van direct naar het antwoord te springen, dwingen we de assistent om eerst een lijstje te maken van concepten.
    • Voorbeeld: In plaats van "Dit is een vrouw die kookt", zegt de assistent eerst: "Ik zie een pan, ik zie een fornuis, ik zie een lepel." Pas daarna zegt hij: "Dus, dit is koken."
    • Dit zou eerlijker moeten zijn, omdat hij niet direct naar de persoon kijkt.

2. Het Nieuwe Probleem: De "Geheime Codes"

De onderzoekers ontdekten iets verrassends. Zelfs als de assistent alleen naar concepten kijkt (zoals "pan" of "lepel"), verbergt hij nog steeds geheime informatie.

  • De analogie: Stel je voor dat de assistent een lijstje maakt met woorden. Hij schrijft "pan" op, maar in zijn hoofd is dat woord gekoppeld aan "man" en "vrouw". Het woord "pan" lekt dus nog steeds informatie uit over het geslacht, zelfs als het woord zelf neutraal klinkt.
  • Dit noemen ze informatielek. De assistent gebruikt de concepten als een code om toch te weten wie er op de foto staat, wat zijn vooroordelen weer in de hand werkt.

3. De Drie Trucs om het Eerlijk te Maken

Om dit lek te dichten, hebben de onderzoekers drie methoden bedacht:

Truc 1: De "Top-K" Filter (Alleen de Belangrijkste)

In plaats van naar alle 1000 concepten op het lijstje te kijken, laten we de assistent alleen kijken naar de top 100 belangrijkste.

  • Vergelijking: Stel je voor dat je een boek leest. Als je naar elk woord kijkt, zie je veel ruis. Maar als je alleen kijkt naar de belangrijkste zinnen, begrijp je de kern beter en zie je minder afleiding.
  • Resultaat: Door alleen naar de sterkste signalen te kijken, verdwijnt veel van de "geheime code" over geslacht, zonder dat de assistent zijn werk (de foto herkennen) verpest.

Truc 2: Het Verwijderen van "Vooroordeel-Woorden"

De onderzoekers probeerden woorden van het lijstje te halen die duidelijk te maken hebben met geslacht (zoals "stropdas" of "make-upborstel").

  • Het resultaat: Dit werkte niet zo goed. De assistent was slim genoeg om de informatie over geslacht te verstoppen in andere woorden. Het was alsof je een muur probeert te slopen, maar de stenen verplaatsen zich naar een andere muur.

Truc 3: De "Tegenpartij" (Adversarial Debiasing)

Dit is de krachtigste methode. Ze trainen de assistent alsof hij een spelletje speelt tegen een tegenstander.

  • Het spel: De assistent moet de foto goed herkennen (bijv. "koken"). Maar er is een tegenstander die probeert te raden of de persoon op de foto een man of een vrouw is, puur op basis van de concepten die de assistent gebruikt.
  • De winnaar: De assistent moet zo slim worden dat hij de foto perfect herkent, maar de tegenstander niets kan raden over het geslacht. Als de tegenstander het geslacht kan raden, betekent dit dat de assistent nog steeds vooroordelen gebruikt. De assistent moet dan zijn strategie aanpassen.
  • Resultaat: Dit werkt het beste! Het reduceert de vooroordelen met bijna 30%, terwijl de assistent nog steeds bijna even goed blijft werken.

Waarom is dit belangrijk?

  1. Transparantie: Omdat we weten welke concepten de assistent gebruikt (pan, lepel, fornuis), kunnen we zien waar hij fouten maakt. Bij een "zwarte doos" AI weet je nooit waarom hij een beslissing nam.
  2. Eerlijkheid: Door deze methoden te gebruiken, zorgen we dat de AI niet discrimineert op basis van geslacht, ras of andere kenmerken, zelfs als de trainingsdata niet perfect was.
  3. Geen extra werk: De slimme truc is dat ze dit kunnen doen zonder dat mensen handmatig moeten labelen of dat ze duizenden extra foto's nodig hebben.

Kort samengevat:
De onderzoekers hebben een manier gevonden om een slimme AI te dwingen om eerst naar de actie te kijken (koken, spelen) en niet naar de persoon. Ze hebben een "vuilnisbak" voor vooroordelen bedacht (de Top-K filter) en een "spiegel" (de tegenstander) die de AI dwingt om eerlijk te blijven. Het resultaat is een AI die niet alleen slimmer is, maar ook eerlijker en makkelijker te begrijpen voor mensen.