Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

Titel: Zien computers wat mensen echt belangrijk vinden? Een onderzoek naar 'tegenfeitelijke' uitleggen.

Stel je voor dat je een slimme computer hebt die een beslissing neemt, bijvoorbeeld: "Deze paddenstoel is giftig" of "Deze patiënt heeft een hartziekte." Jij vraagt de computer: "Waarom?" En de computer geeft een antwoord: "Omdat je een rode hoed hebt."

Maar wat als je vraagt: "Wat moet ik doen om een andere uitslag te krijgen?" Dan geeft de computer een tegenfeitelijke uitleg (counterfactual explanation). Het is als een "Wat als?"-scenario. De computer zegt: "Als je een witte hoed had in plaats van een rode, dan zou ik zeggen dat je paddenstoel veilig is."

Dit klinkt geweldig, maar hoe weten we of zo'n uitleg goed is?

Het probleem: De meetlat van de computer vs. het gevoel van de mens

In de wereld van kunstmatige intelligentie (AI) gebruiken onderzoekers vaak automatische meetlaten (metrieken) om te beoordelen of een uitleg goed is. Het is alsof je een foto meet met een liniaal:

"Hoeveel pixels zijn er veranderd?" (Moeilijkheidsgraad)
"Hoe dichtbij zit de nieuwe foto bij de oude?" (Nabijheid)
"Is de nieuwe foto realistisch?" (Plausibiliteit)

De onderzoekers van dit paper (Felix Liedeker en zijn team) dachten: "Wachten maar. Als een computer zegt dat een uitleg 'perfect' is volgens deze meetlaten, betekent dat dan ook dat een mens het een goede uitleg vindt?"

Ze stelden zich de vraag: Lopen de cijfers van de computer en het gevoel van de mens wel in de pas?

Het experiment: Een proef met drie verschillende werelden

Om dit uit te zoeken, deden ze een groot experiment. Ze gebruikten drie verschillende datasets (zoals drie verschillende spelletjes):

Paddenstoelen: Is deze paddenstoel eetbaar of giftig?
Obesiteit: Wat is het gewichtsklasse op basis van eetgewoonten?
Hartkwalen: Is er een risico op hartziekte?

Voor elk spel lieten ze de computer duizenden "Wat als?"-scenario's bedenken. Vervolgens vroegen ze 167 echte mensen om deze uitleggen te beoordelen. Ze kregen vragen als:

"Begrijp je dit?"
"Klinkt dit geloofwaardig?"
"Ben je tevreden met dit antwoord?"

De verrassende ontdekkingen

Het resultaat was verrassend en een beetje teleurstellend voor de AI-wereld:

1. De meetlaten van de computer en het gevoel van de mens lopen uit elkaar.
Het was alsof je een auto meet met een liniaal (hoe recht is de lijn?) en een mens vraagt of de auto "snel" aanvoelt. De computer zegt: "Deze auto is perfect recht!" en de mens zegt: "Ja, maar hij voelt traag aan."
In dit onderzoek bleek dat de automatische cijfers slechts heel zwak correleerden met wat mensen vonden. Soms gaf een "perfecte" computer-uitkomst een slechte score bij mensen, en vice versa.

2. Het hangt allemaal af van de situatie.
Wat mensen mooi vonden, veranderde per spelletje.

Bij de paddenstoelen vonden mensen het fijn als er weinig dingen veranderden (een simpele uitleg).
Bij de obesiteit vonden mensen juist een rijke, gedetailleerde uitleg beter.
Bij het hart was er geen duidelijk patroon te vinden.
Dit betekent dat er geen enkele "magische meetlat" bestaat die voor alles werkt.

3. Meer cijfers maken het niet beter.
De onderzoekers dachten misschien: "Misschien is één meetlat niet genoeg. Laten we zeven meetlaten combineren en een slim algoritme gebruiken om te voorspellen wat mensen vinden."
Het resultaat? Nee. Het toevoegen van meer cijfers maakte de voorspelling zelfs slechter. Het was alsof je een recept probeert te verbeteren door er steeds meer ingrediënten aan toe te voegen, maar de taart wordt er alleen maar minder lekker van. De bestaande meetlaten bevatten simpelweg niet de informatie die mensen belangrijk vinden.

De grote les: We moeten de mens centraal stellen

De conclusie van het paper is helder: We kunnen niet zomaar vertrouwen op de automatische cijfers om te zeggen of een AI-uitleg goed is.

Het is alsof je een chef-kok (de AI) beoordeelt op basis van de temperatuur van de oven (de meetlaten), terwijl de gasten (de mensen) vooral kijken of het eten er lekker uitziet en smaakt. De temperatuur is belangrijk, maar het zegt je niets over de smaak.

Wat betekent dit voor de toekomst?
De auteurs zeggen dat we moeten stoppen met alleen naar de cijfers van de computer te kijken. Als we AI-systemen willen bouwen die mensen echt vertrouwen en begrijpen, moeten we menselijke oordelen direct in het meetproces opnemen. We moeten nieuwe manieren vinden om uitleggen te testen, waarbij we vragen aan echte mensen wat zij belangrijk vinden, in plaats van alleen te rekenen met formules.

Kort samengevat: De computer heeft een liniaal, maar de mens heeft een hart. Om te weten of een uitleg goed is, moeten we luisteren naar het hart, niet alleen naar de liniaal.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Explainable Artificial Intelligence (XAI) is essentieel voor het opbouwen van vertrouwen in AI-systemen. Counterfactual explanations (CF's) – uitleggen hoe een voorspelling zou veranderen bij minimale wijzigingen in de invoer – zijn een populaire methode. De kwaliteit van deze uitleggen wordt echter voornamelijk geëvalueerd met algoritmische metrics (zoals sparsiteit, proximaliteit en diversiteit) die berekend worden zonder menselijke betrokkenheid.

Het centrale probleem is dat er weinig empirisch bewijs is dat deze geautomatiseerde metrics daadwerkelijk correleren met de menselijke perceptie van uitlegkwaliteit. Er bestaat een risico dat metrics die computatief optimaal lijken, niet overeenkomen met wat gebruikers als nuttig, begrijpelijk of betrouwbaar ervaren. Dit artikel onderzoekt of bestaande automatische metrics een betrouwbare proxy zijn voor menselijke beoordeling.

Methodologie

De auteurs hebben een gecontroleerde empirische studie uitgevoerd bestaande uit drie hoofdfasen:

Dataverzameling en Generatie van CF's:
- Drie tabulaire datasets werden gebruikt uit de UCI Machine Learning Repository: Mushroom (MUS), Obesity Levels (OBE) en Heart Disease (HRT).
- Een XGBoost-model werd getraind op deze data.
- Counterfactual explanations werden gegenereerd met de Counterfactuals Guided by Prototypes methode (via de bibliotheek Alibi Explain).
- Er werden 85 geldige CF's geselecteerd via een cluster-preserving samplingstrategie om de diversiteit in de ruimte van uitleggen te waarborgen.
Gebruikersstudie:
- Deelnemers: 167 deelnemers via Prolific.
- Procedure: Deelnemers beoordeelden de gegenereerde CF's op een 4-punts Likert-schaal.
- Beoordelingsdimensies:
  1. Waargenomen nauwkeurigheid (Perceived Accuracy)
  2. Begrijpelijkheid (Understandability)
  3. Plausibiliteit (Plausibility)
  4. Toereikendheid van details (Sufficiency of Detail)
  5. Gebruikstevredenheid (User Satisfaction)
- Deze dimensies werden geaggregeerd tot een Combined Quality Score (CQS).
Automatische Metrieken en Analyse:
- Zeven veelgebruikte automatische metrics werden berekend voor elke CF: Sparsity, Proximity, Closeness to training data, Diversity, Oracle Score, Trust Score, en Completeness.
- Analyse:
  - Correlatie: Pearson-correlaties tussen individuele metrics en de menselijke scores.
  - Voorspellende Modellering: Supervised learning modellen (Lineaire Regressie, kNN, Random Forest, XGBoost, GAMs) werden getraind om menselijke scores te voorspellen op basis van combinaties van de automatische metrics. Er werd een "powerset"-analyse uitgevoerd over alle mogelijke subsets van de 7 metrics.

Belangrijkste Bijdragen

Gestandaardiseerde Vergelijking: Een systematische vergelijking van een uitgebreide set automatische CF-metrics met menselijke beoordelingen over drie verschillende datasets.
Empirisch Bewijs van Discrepantie: Het leveren van robuust bewijs dat de relatie tussen automatische metrics en menselijke perceptie zwak is en sterk afhankelijk van de dataset.
Analyse van Combinaties: Het onderzoeken of het combineren van meerdere metrics de voorspellende kracht verbetert. De studie toont aan dat het toevoegen van meer metrics de prestaties vaak verslechtert in plaats van verbetert.
Aanbeveling voor Mensgerichte Evaluatie: Het betogen dat de huidige evaluatieparadigma's fundamenteel tekortschieten en dat er behoefte is aan metrics die directer zijn gebaseerd op menselijke perceptie.

Resultaten

De resultaten tonen een duidelijke en zorgwekkende misalignering aan:

Zwakke Correlaties: De correlaties tussen individuele automatische metrics en menselijke scores zijn over het algemeen zwak ( $|r| < 0.1$ $∣ r ∣ < 0.1$ ) en sterk dataset-afhankelijk.
- Bij de Mushroom-dataset waren metrics zoals sparsiteit en proximaliteit negatief gecorreleerd met tevredenheid (gebruikers prefereerden minder veranderingen).
- Bij de Obesity-dataset waren metrics zoals diversiteit en trust score positief gecorreleerd (gebruikers prefereerden rijkere uitleg).
- Bij de Heart Disease-dataset waren er nauwelijks significante correlaties.
Geen Voorspellende Kracht:
- Lineaire Modellen: Presteerden zeer slecht met negatieve $R^2$ -waarden, wat aangeeft dat lineaire combinaties van metrics geen variantie in menselijke oordelen kunnen verklaren.
- Niet-lineaire Modellen: Zelfs de beste modellen (Random Forest) bereikten slechts een zeer lage $R^2$ (gemiddeld rond de 0.067, met een maximum van 0.33).
- Complexiteitseffect: Het verhogen van het aantal gebruikte metrics in de modellen leidde niet tot betere voorspellingen. Integendeel, na het toevoegen van 3 tot 4 metrics nam de prestatie vaak af, wat suggereert dat de bestaande metrics geen complementaire informatie bieden voor menselijke oordelen.

Significantie en Conclusie

De studie concludeert dat bestaande automatische evaluatiemetrics voor counterfactual explanations niet betrouwbaar zijn als proxy voor menselijke perceptie. Er is sprake van een structurele kloof tussen wat de algoritmes meten (bijv. minimaliteit van veranderingen) en wat gebruikers belangrijk vinden (contextuele plausibiliteit, vertrouwen, tevredenheid).

Implicaties:

De huidige praktijk om CF-methoden te vergelijken op basis van geautomatiseerde metrics is misleidend.
Er is een dringende noodzaak voor de ontwikkeling van nieuwe evaluatiemethoden die mensgerichter zijn en directer zijn gebaseerd op psychologische en contextuele factoren.
Toekomstig onderzoek moet zich richten op het operationaliseren van menselijke waarden in meetbare, maar wel mens-gealigneerde, proxy-metrics.

Kortom, de paper waarschuwt dat we niet kunnen vertrouwen op geautomatiseerde getallen om de kwaliteit van XAI-systemen te beoordelen; menselijke evaluatie blijft de gouden standaard.

Do Metrics for Counterfactual Explanations Align with User Perception?

Het probleem: De meetlat van de computer vs. het gevoel van de mens

Het experiment: Een proef met drie verschillende werelden

De verrassende ontdekkingen

De grote les: We moeten de mens centraal stellen

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers