Beyond Attribution: Unified Concept-Level Explanations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar mysterieuze robot hebt die foto's of teksten bekijkt en een oordeel velt. Bijvoorbeeld: "Deze film is slecht" of "Dit is een hond". Je vraagt de robot: "Waarom denk je dat?"

De robot geeft je dan vaak een antwoord dat lijkt op een lijst met kleine, onbegrijpelijke details. Voor een foto zou het zeggen: "Ik keek naar pixel 104, 105 en 106." Voor een tekst zou het zeggen: "Woord 3 en woord 7 waren belangrijk."

Dit is als een kok die je vraagt waarom zijn soep zo lekker is, en hij antwoordt: "Omdat er 3 gram zout in zat op positie 12 in de pot." Het is technisch misschien juist, maar voor jou als mens is het niet heel verhelderend. Je wilt weten: "Omdat er verse tomaten en kruiden in zaten."

Het probleem met de huidige methoden
Tot nu toe konden we de robot alleen vragen om naar die kleine details (pixels of woorden) te kijken. Er waren wel methoden om naar "concepten" (zoals 'tomaten' of 'hond') te kijken, maar die waren beperkt. Ze konden alleen zeggen: "Deze tomaten waren belangrijk." Ze konden niet zeggen:

"Als je de tomaten verwijdert, wordt het een soepje." (Wat gebeurt er als ik iets verander?)
"Zolang er tomaten en uien in zitten, is het altijd een soep." (Wat is de minimale voorwaarde?)

De oplossing: UnCLE
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd UnCLE. Je kunt UnCLE zien als een slimme tolk die tussen jou en de robot zit.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De Vertaler (Concepten)

In plaats van dat de robot naar losse pixels of letters kijkt, vraagt UnCLE de robot om naar hoofdconcepten te kijken.

Vergelijking: In plaats van dat de robot naar de verfkleur van een auto kijkt, kijkt hij naar "de wielen", "de koplampen" en "de carrosserie".
UnCLE gebruikt een heel slimme, voorgetrainde AI (zoals een super-intelligente assistant) om deze concepten te vinden.

2. De Proefkeuken (Perturbatie)

Dit is het magische deel. Vroeger was het moeilijk om een concept te "veranderen" in een computer. Je kon niet zomaar "tomaten" uit een foto halen zonder de hele foto te verstoren.
UnCLE gebruikt de slimme AI-assistent als een proefkeuken.

Vergelijking: Stel je voor dat je de robot vraagt: "Wat gebeurt er als ik de tomaten uit de soep haal?" De slimme AI-assistent "tekent" dan een nieuwe soep voor je, zonder tomaten, en laat de robot die nieuwe soep beoordelen.
Doet de robot het nu anders? Dan weten we dat de tomaten cruciaal waren.
Dit kan de AI-assistent doen met alles: "Wat als de hond een hondje wordt?", "Wat als de film een slecht einde heeft?"

3. De Drie Soorten Antwoorden

Omdat UnCLE deze "proefkeuken" gebruikt, kan hij drie soorten antwoorden geven, afhankelijk van wat jij wilt weten:

De Aandachtstabel (Attributie): "Deze tomaten waren 40% van de reden voor het oordeel." (Net als de oude methoden, maar dan in begrijpelijke termen).
De Zekere Regel (Voldoende Voorwaarde): "Zolang er tomaten en uien in zitten, zal de robot altijd zeggen 'Soep'. Het maakt niet uit wat er anders in zit." (Dit helpt je te voorspellen wat de robot doet).
Het "Wat-als" Scenario (Counterfactual): "Als je de tomaten verwijdert, zegt de robot 'Geen soep'." (Dit helpt je te begrijpen wat er nodig is om het resultaat te veranderen).

Waarom is dit zo cool?

Het werkt overal: Of je nu een tekst, een foto of een combinatie van beide bekijkt, UnCLE werkt voor bijna elke robot.
Het is betrouwbaarder: Omdat de robot nu reageert op echte concepten (zoals "hond" of "film") in plaats van willekeurige pixels, is het antwoord eerlijker en makkelijker te vertrouwen.
Het is flexibel: Je kunt kiezen welk antwoord je wilt. Wil je weten wat belangrijk was? Of wil je weten wat je moet veranderen om een ander resultaat te krijgen? UnCLE geeft je dat allemaal.

Kortom:
UnCLE is als het geven van een vertaling aan een robot. In plaats van dat de robot praat in "pixel-code", praat hij nu in "mensentaal" over concepten. En omdat UnCLE slim genoeg is om te simuleren wat er gebeurt als je die concepten verandert, kun je de robot nu vragen: "Wat als...?" en krijg je een antwoord dat echt zinvol is voor jou als mens.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Er is een groeiende behoefte aan uitlegmogelijkheden (explainability) voor machine learning-modellen die zowel model-agnostisch zijn (werken met verschillende architecturen, inclusief gesloten bronmodellen) als concept-gebaseerd (gebruikmakend van hoog-niveau concepten zoals objecten of thema's in plaats van lage-niveau features zoals pixels of woorden).

Bestaande methoden kampen echter met twee belangrijke beperkingen:

Beperkte vormgeving: Bestaande concept-gebaseerde methoden focussen bijna uitsluitend op attribution (toewijzing van belang aan features). Ze negeren rijkere vormen van uitleg zoals voldoende voorwaarden (sufficient conditions) en contrfactuele uitleg (counterfactuals).
Gebrek aan interpretatie: Bestaande model-agnostische methoden die diverse vormen van uitleg bieden (zoals LIME of Anchors), werken vaak op feature-niveau (bijv. superpixels of individuele woorden). Dit maakt de uitleg minder begrijpelijk en minder trouw (faithful) voor eindgebruikers dan uitleg op concept-niveau.

Er ontbreekt dus een raamwerk dat bestaande lokale, model-agnostische technieken kan "verheffen" naar concept-niveau, terwijl het diverse vormen van uitleg ondersteunt.

Methodologie: Het UnCLE-raamwerk

De auteurs stellen UnCLE (Unified Concept-Level Explanations) voor, een algemeen en lichtgewicht raamwerk dat bestaande lokale model-agnostische methoden uitbreidt naar concept-niveau zonder hun kernalgoritmen fundamenteel te veranderen.

Het proces verloopt in drie stappen:

Productie van Concept-Predicaten:
- In plaats van features (zoals pixels of tokens) te gebruiken, extrahiert UnCLE hoog-niveau concepten uit de invoerdata (bijv. "een kind" in een afbeelding of "een positieve toon" in een tekst).
- Hiervoor worden bestaande concept-extractiemethoden gebruikt (bijv. gebaseerd op SAM voor beelden of LLM's voor tekst).
- Er worden binaire predicaten ( $p_c$ ) gedefinieerd die aangeven of een concept aanwezig is.
Concept-Niveau Perturbatie (De Kerninnovatie):
- Traditionele methoden maskeren of verstoren lage-niveau features. UnCLE verstoort echter direct de concepten.
- Om dit mogelijk te maken, introduceert UnCLE een concept-feature mapping model, aangedreven door grote voorgeïmplementeerde modellen (Large Pre-trained Models, zoals DeepSeek-V3 voor tekst of Blended Latent Diffusion voor beelden).
- Dit model genereert nieuwe steekproeven in de feature-ruimte die voldoen aan (of niet voldoen aan) specifieke concept-predicaten. Bijvoorbeeld: "Genereer een afbeelding zonder een kind" of "Genereer een zin zonder een specifieke entiteit".
- Dit zorgt ervoor dat de perturbaties semantisch betekenisvol zijn, in tegenstelling tot willekeurige pixel-masking.
Generatie van Uitleg:
- De verkregen concept-predicaten en de bijbehorende modeloutput worden gebruikt door de onderliggende leeralgoritmen van bestaande methoden (zoals LIME, Kernel SHAP, Anchors, LORE).
- Omdat het raamwerk generiek is, kunnen deze methoden nu uitleg genereren in drie vormen:
  - Attributies: Belang van concepten.
  - Voldoende Voorwaarden: Minimale set concepten die nodig is voor een bepaalde output.
  - Contrfactuelen: Hoe de output verandert als specifieke concepten worden verwijderd of toegevoegd.

Belangrijkste Bijdragen

UnCLE Framework: Een unificerend raamwerk dat bestaande lokale uitlegmethode (LIME, SHAP, Anchors, LORE) transformeert naar concept-niveau met minimale inspanning van de gebruiker.
Gebruik van Generatieve Modellen: Het introduceren van grote voorgeïmplementeerde modellen als "concept-feature mapper" om realistische perturbaties op concept-niveau te genereren.
Unificatie van Uitlegvormen: Voor het eerst worden attributies, voldoende voorwaarden en contrfactuelen allemaal geboden op concept-niveau binnen één raamwerk.
Empirische Validatie: Uitgebreide evaluaties tonen aan dat UnCLE niet alleen beter presteert dan bestaande concept-methoden, maar ook dat het mogelijk is om bestaande methoden te upgraden zonder ze volledig opnieuw te ontwerpen.

Resultaten

De auteurs hebben UnCLE getest op tekst-, beeld- en multimodale modellen (o.a. BERT, YOLOv8, ViT, ResNet, Qwen2.5-VL).

Verbeterde Trouw (Fidelity): UnCLE-geaugmenteerde methoden verbeteren de trouw van bestaande methoden aanzienlijk. Gemiddeld steeg de trouw met 56,8% vergeleken met de feature-level versies.
- Voor Anchors en LORE: Significant hogere dekking (coverage) en precisie.
- Voor LIME en Kernel SHAP: Hogere AOPC (Area Over Perturbation Curve) en lagere accuracya (betere sensitiviteit voor perturbaties).
Superieure Prestaties: UnCLE presteert beter dan state-of-the-art concept-gebaseerde methoden die specifiek voor tekst (TBM, LACOAT) of beeld (EAC, ConceptLIME) zijn ontworpen.
Menselijke Evaluatie: Een user study met 18 deelnemers toonde aan dat gebruikers UnCLE-gebaseerde voldoende voorwaarden en contrfactuelen beter kunnen gebruiken om modelgedrag te voorspellen dan traditionele attributies. De precisie van menselijke voorspellingen steeg met 8,1% (voor voldoende voorwaarden) en 14,2% (voor contrfactuelen).
Robuustheid: Het raamwerk is robuust ten opzichte van verschillende keuzes van generatieve modellen (bijv. verschillende LLM's of diffusion modellen) en verschillende concept-types (hiërarchische concepten, attributen).

Significantie

Dit paper is significant omdat het een brug slaat tussen twee vaak gescheiden gebieden in Explainable AI (XAI): model-agnostische methoden en concept-gebaseerde uitleg.

Efficiëntie in Ontwikkeling: Het toont aan dat het niet nodig is om complexe, nieuwe concept-gebaseerde methoden van scratch te bouwen. Bestaande, bewezen methoden kunnen eenvoudig en lichtgewicht worden "geëscaleerd" naar concept-niveau.
Gebruiksvriendelijkheid: Door uitleg te geven in termen van semantische concepten (objecten, thema's) in plaats van abstracte pixels of woorden, wordt de uitleg veel toegankelijker voor eindgebruikers.
Veelzijdigheid: Het biedt voor het eerst een uniforme manier om verschillende soorten uitleg (waarom, wat als, en welke voorwaarden) te genereren op een niveau dat mensen begrijpen, wat cruciaal is voor de toepassing van AI in real-world scenario's.

Kortom, UnCLE demonstreert dat het combineren van de flexibiliteit van model-agnostische methoden met de interpretatiekracht van concepten, leidt tot superieure en meer bruikbare uitleg voor complexe machine learning-modellen.

Beyond Attribution: Unified Concept-Level Explanations

1. De Vertaler (Concepten)

2. De Proefkeuken (Perturbatie)

3. De Drie Soorten Antwoorden

Waarom is dit zo cool?

Probleemstelling

Methodologie: Het UnCLE-raamwerk

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank