Towards Attributions of Input Variables in a Coalition

Each language version is independently generated for its own context, not a direct translation.

De "Teamwork"-theorie van AI: Waarom groepsresultaten niet altijd de som zijn van de delen

Stel je voor dat je een groep vrienden hebt die samen een taak uitvoeren, zoals het oplossen van een raadsel of het winnen van een bordspel. In de wereld van kunstmatige intelligentie (AI) proberen wetenschappers vaak uit te leggen wie precies heeft bijgedragen aan het succes van de AI. Dit heet "toewijzing" (attribution).

Deze paper, geschreven door onderzoekers van de Universiteit van Shanghai Jiao Tong, pakt een groot probleem aan: Hoe weten we of een groep variabelen (bijvoorbeeld een zin in een tekst of een groep pixels in een foto) echt samenwerkt als één team, of dat het gewoon een willekeurige verzameling losse onderdelen is?

Hier is de uitleg in simpele taal, met behulp van een paar creatieve vergelijkingen.

1. Het Probleem: De "Willekeurige Groep"

Stel je voor dat je een AI vraagt om een zin te analyseren: "Het regende katten en honden."

Manier A: De AI kijkt naar elk woord apart: "regende", "katten", "en", "honden".
Manier B: De AI kijkt naar de hele zin als één blok: "het regende katten en honden".

Het probleem is dat de AI vaak verschillende antwoorden geeft, afhankelijk van hoe je de groepen vormt. Als je de woorden apart bekijkt, krijg je een totaalresultaat. Als je ze als één groep bekijkt, krijg je een ander resultaat.
De vraag is: Waarom kloppen die twee resultaten niet met elkaar? Is de groep "katten en honden" wel een echt team, of is het gewoon een losse verzameling?

2. De Oplossing: De "AND-OR" Spelregels

De onderzoekers ontdekten dat AI-modellen (zoals neurale netwerken) werken met twee soorten interacties, die ze AND- en OR-interacties noemen.

De AND-interactie (Het "Alles of Niets" Team):
Denk aan een slot met drie sleutels. Je hebt alle drie sleutels nodig om het slot open te krijgen. Als je er één mist, werkt het niet.
- Voorbeeld: In de zin "katten en honden", werkt de AI pas als alle woorden aanwezig zijn. Als je "en" verwijdert, valt de betekenis "stormachtige regen" weg. Dit is een echte samenwerking.
De OR-interactie (Het "Iedereen is Welkom" Team):
Denk aan een alarm dat afgaat als één van de sensoren wordt uitgelokt. Het maakt niet uit welke sensor het is; als er maar één is, gaat het alarm af.
- Voorbeeld: Als een zin "saai" of "teleurstellend" bevat, voelt de AI dat het een negatief gevoel is. Het maakt niet uit of het woord "saai" of "teleurstellend" is; één van beide is genoeg.

3. De "Conflicten" (Waarom de rekenfout ontstaat)

De onderzoekers ontdekten iets fascinerends: De reden dat de resultaten niet kloppen, ligt in de "halve teams".

Stel je voor dat je een groep mensen hebt: {Anna, Bob, Charlie}.

De AI ziet dat Anna, Bob en Charlie samen een superkracht hebben (de AND-interactie).
Maar de AI ziet ook dat Anna en Bob samen een andere kracht hebben, en Bob en Charlie een derde kracht.

Als je nu vraagt: "Wat is de bijdrage van de groep {Anna, Bob}?", dan krijg je een conflict.

Als je Anna en Bob apart bekijkt, tellen ze hun eigen krachten op.
Maar als je ze als groep bekijkt, telt de AI alleen de krachten mee die alleen voor die groep gelden. De krachten die ze delen met Charlie (de "halve teams") worden in de ene berekening wel meegerekend en in de andere niet.

De paper zegt: Dit is geen fout, maar een natuurlijk gevolg van hoe AI werkt. Het is alsof je probeert de bijdrage van een voetbalspeler te meten: telt hij alleen de doelpunten die hij zelf scoort, of ook de assists die hij gaf aan een speler die er niet bij was in de specifieke berekening?

4. De Nieuwe Methode: "Eerlijke Groepen" Meten

De auteurs hebben een nieuwe manier bedacht om te meten of een groep variabelen een trouw (faithful) team is. Ze hebben drie meetinstrumenten bedacht (die we hier als "snelheidsmeters" kunnen zien):

De Team-Check: Is de groep zo sterk dat ze alleen maar samenwerken en niet los van elkaar? (Hoog score = Echt team).
De Rol-Check: Speelt elk lid in de groep een unieke rol binnen de groep, of is het maar een willekeurig lid?
De Context-Check: Wordt de groep als één geheel gezien door de AI, of ziet de AI ze ook als losse stukjes in andere situaties?

Als een groep een hoge score krijgt op deze meters, weten we: "Ja, dit is een betekenisvolle eenheid." Als de score laag is, is het gewoon een willekeurige verzameling woorden of pixels.

5. Praktijkvoorbeelden

De onderzoekers hebben dit getest in drie verschillende werelden:

Taal (NLP): Ze keken naar zinnen. Bijvoorbeeld: "mesmerizing performances" (betoverende voorstellingen) bleek een echte, trouwe groep te zijn. Maar "rivaling blair" (concurrerend met Blair) bleek een slechte groep, omdat het woord "Blair" losstaat van de rest en de betekenis verstoort.
Beelden: Ze keken naar foto's van dieren. Een groep pixels die samen het hoofd van een paard vormde, werd herkend als een echte eenheid. Willekeurige pixels die niets met elkaar te maken hadden, scoorden slecht.
Go (Het bordspel): Dit was misschien wel het coolste voorbeeld. Ze gebruikten hun methode om te kijken naar patronen van stenen op een Go-bord.
- Menselijke Go-spelers kennen bepaalde patronen (zoals "schouder-aanval").
- De AI had ook patronen geleerd die mensen niet kenden.
- Met hun nieuwe methode konden ze deze patronen "ontmaskeren" en zien welke groepen stenen echt samenwerkten om het spel te winnen. Het hielp zelfs professionele spelers om nieuwe strategieën te ontdekken!

Conclusie in één zin

Deze paper leert ons dat we niet zomaar kunnen aannemen dat een groep van AI-onderdelen samenwerkt als één team; we moeten eerst controleren of ze een echte "AND-interactie" hebben, anders tellen we de bijdragen verkeerd op. Het is een nieuwe manier om te begrijpen hoe AI echt "denkt" en samenwerkt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Towards Attributions of Input Variables in a Coalition

Auteurs: Xinhao Zheng, Huiqi Deng, Quanshi Zhang (Shanghai Jiao Tong University)

1. Het Probleem

In het veld van Explainable AI (XAI) is het bepalen van de attributie (belangrijkheid) van invoervariabelen een fundamentele taak, waarbij de Shapley-waarde vaak als de standaard wordt beschouwd vanwege zijn theoretische eigenschappen (zoals anonimiteit, symmetrie en efficiëntie).

Een groot, maar vaak onderbelicht probleem is echter de definitie van de partitie van invoervariabelen.

Bijvoorbeeld: Moet een beeld worden opgedeeld in pixels, of in lokale gebieden? Moet een tekst worden opgedeeld in tokens of in woorden?
Bestaande methoden berekenen attributies op basis van een vooraf gedefinieerde partitie, maar bieden geen theoretische richtlijnen over hoe variabelen in een betekenisvolle groep (een coalitie) moeten worden samengevoegd.
Het kernconflict: Er ontstaat een tegenstrijdigheid wanneer de attributie van een coalitie $S$ niet gelijk is aan de som van de attributies van de individuele variabelen binnen die coalitie. Wiskundig uitgedrukt: $\phi(S) \neq \sum_{i \in S} \phi(i)$ . Bestaande methoden proberen dit conflict vaak te "oplossen" door engineering-trucs (zoals het minimaliseren van een verliesfunctie), zonder de onderliggende oorzaak te begrijpen.

2. Methodologie

De auteurs lossen dit probleem op door de attributiemethoden te herformuleren vanuit het perspectief van AND-OR interacties binnen AI-modellen.

A. AND-OR Interacties

Het paper maakt gebruik van de theorie dat de output van een AI-model altijd kan worden ontbonden in numerieke effecten van AND-interacties (waar alle variabelen in een groep nodig zijn) en OR-interacties (waar voldoende variabelen nodig zijn).

AND-interactie $I_{and}(S)$ : De aanwezigheid van alle variabelen in set $S$ levert een specifiek effect op.
OR-interactie $I_{or}(S)$ : De aanwezigheid van minstens één variabele in set $S$ levert een effect op.

B. Herformulering van Shapley en Banzhaf

De auteurs bewijzen dat zowel de Shapley-waarde als de Banzhaf-waarde kunnen worden gezien als een herverdeling van deze interactie-effecten over de variabelen.

De Shapley-waarde van variabele $i$ is de som van de bijdragen van alle interacties waar $i$ deel van uitmaakt, waarbij het effect van een interactie $T$ gelijkmatig wordt verdeeld over $|T|$ variabelen.

C. Nieuwe Coalitie-Attributie ( $\phi(S)$ )

In plaats van het conflict te forceren, definiëren de auteurs een nieuwe attributiemetric voor een coalitie $S$ :
$\phi(S) = \sum_{T \supseteq S} \frac{|S|}{|T|} [I_{and}(T) + I_{or}(T)]$
Deze metric telt alleen de interacties $T$ die alle variabelen in $S$ bevatten.

D. Analyse van het Conflict

Het paper toont wiskundig aan dat het conflict $\phi(S) \neq \sum \phi(i)$ ontstaat door interacties die slechts een deel van de coalitie $S$ bevatten (maar niet de volledige coalitie).

Gedeelde attributie ( $\phi_{shared}$ ): Effecten van interacties die de hele coalitie $S$ omvatten.
Conflicterende attributie ( $\phi_{conflict}$ ): Effecten van interacties die slechts een subset van $S$ omvatten. Deze worden wel meegerekend in de som van individuele attributies, maar niet in de coalitie-attributie $\phi(S)$ .

E. Metrieken voor "Faithfulness" (Betrouwbaarheid)

Om te bepalen of een groep variabelen een betrouwbare coalitie vormt, stellen de auteurs drie metrieken voor:

$R(i)$ : Meet of de attributie van variabele $i$ voornamelijk wordt bepaald door interacties die de volledige coalitie $S$ omvatten.
$R'(i)$ : Meet de significantie van variabele $i$ binnen de coalitie in vergelijking met zijn totale bijdrage aan het model.
$Q(S)$ : Meet de totale sterkte van de coalitie $S$ als eenheid ten opzichte van alle mogelijke interacties van de variabelen in $S$ .

3. Belangrijkste Bijdragen

Theoretische Oorzaak van Conflict: Het paper identificeert en bewijst dat het conflict tussen individuele en coalitie-attributies inherent is en veroorzaakt wordt door "gedeeltelijke" interacties (interacties die niet alle variabelen van de coalitie bevatten).
Nieuwe Metric: Introductie van een nieuwe coalitie-attributiemetric gebaseerd op AND-OR interacties die dit conflict expliciet kwantificeert in plaats van het te maskeren.
Evaluatie-Metrieken: Voorstel van drie metrieken ( $R, R', Q$ ) om te beoordelen of een menselijk gedefinieerde groep variabelen (coalitie) "faithful" is (d.w.z. of het model deze groep ook als een eenheid behandelt).
Axioma's: Bewijs dat de nieuwe coalitie-attributie voldoet aan de standaard axioma's van de Shapley-waarde (anonymiteit, symmetrie, additiviteit, dummy, efficiëntie).

4. Resultaten

De methode is getest op synthetische data, NLP-taken, beeldclassificatie en het spel Go.

Synthetische Data: Op kunstmatige functies konden de metrieken perfect onderscheid maken tussen "zuiver faithfull" coalities (hoge scores), "gedeeltelijk faithfull" en "onfaithfull" coalities (lage scores).
NLP (Sentimentanalyse): Op modellen zoals BERT en LLaMA werden zinsdelen geanalyseerd.
- Voorbeeld: "mesmerizing performances" kreeg hoge scores, wat aangeeft dat het model deze woorden als een betekenisvolle eenheid behandelt.
- Voorbeeld: "rivaling blair" (in de context van "Blair Witch") kreeg lage scores, omdat het de semantische eenheid "Blair Witch" verbreekt.
Beeldclassificatie: Op MNIST en CIFAR-10 werden gebieden van afbeeldingen geselecteerd. Menselijk gedefinieerde semantische gebieden (bijv. het hoofd van een paard) hadden hoge faithfulness-scores, terwijl willekeurige combinaties lage scores hadden.
Go (Het spel): De methode werd toegepast op de waarde-netwerken van KataGo (een sterke Go-engine).
- Het systeem kon traditionele Go-patronen (zoals "shoulder-hit") identificeren die overeenkwamen met menselijke intuïtie.
- Het kon ook nieuwe patronen ontdekken die door de AI werden geleerd maar die niet direct overeenkwamen met traditionele menselijke kennis, wat waardevol is voor spelers om nieuwe strategieën te leren.

5. Betekenis en Impact

Fundamenteel Inzicht: Het paper verschuift de focus van het "oplossen" van het conflict naar het begrijpen ervan. Het toont aan dat het conflict een natuurlijk gevolg is van hoe neurale netwerken niet-lineaire interacties coderen.
Richting voor XAI: Het biedt theoretische richtlijnen voor onderzoekers en practitioners om te bepalen of een bepaalde manier van het groeperen van invoervariabelen (bijv. woorden vs. tokens, pixels vs. patches) zinvol is voor een specifiek model.
Toepasbaarheid: De methode helpt bij het valideren van menselijke interpretaties van AI-beslissingen en kan leiden tot het ontdekken van nieuwe, voor mensen onbekende patronen in complexe systemen zoals het spel Go.

Kortom, dit paper levert een wiskundig onderbouwde raamwerk om te begrijpen waarom en wanneer het samenvoegen van variabelen in een coalitie leidt tot consistente of tegenstrijdige attributies, en biedt tools om de kwaliteit van deze coalities te meten.