From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

Van "Waarom?" naar "Hoe ging het mis?": De nieuwe manier om AI te begrijpen

Stel je voor dat je een automaat hebt die koffie zet. Als je op de knop "Espresso" drukt, komt er koffie uit. Als de koffie te heet is, kun je vragen: "Welke knop heeft de machine aangezet?" Het antwoord is simpel: de knop voor "Espresso". Dit is hoe de meeste oude AI-verklaringen werken. Ze kijken naar één moment: Input (je drukte op de knop) $\rightarrow$ Output (koffie).

Maar nu hebben we AI-agenten (slimme robots). Die zijn niet meer als een automaat, maar meer als een privé-detective die een complexe zaak moet oplossen. De detective moet:

Een getuige spreken.
Een document opzoeken.
Een fout in het document zien.
Een nieuwe strategie bedenken.
Uiteindelijk de zaak oplossen.

Als de detective faalt, is het antwoord niet meer "Welke knop drukte hij?". De vraag is nu: "Waar in het hele verhaal ging het mis? Zette hij de verkeerde getuige aan het werk? Verloor hij zijn notities uit het oog? Of gaf hij op te vroeg?"

Dit artikel van Sindhuja Chaduvula en haar team zegt: "Onze oude methoden om AI uit te leggen, werken niet meer voor deze slimme detectives."

1. De Oude Methode: De Foto (Static AI)

Vroeger keken we naar AI als naar een foto.

Hoe het werkte: Je gaf de AI een foto van een hond en vroeg: "Is dit een hond?" De AI zei "Ja".
De verklaring: De oude methode (zoals SHAP of LIME) keek naar de foto en zei: "De AI zag de oren en de staart, daarom dacht hij 'hond'."
Het probleem: Dit werkt perfect voor een foto. Maar het zegt je niets over hoe de AI gedacht heeft als het een lang verhaal was. Het is alsof je probeert een hele film te begrijpen door alleen naar één frame te kijken.

2. De Nieuwe Methode: De Videoband (Agentic AI)

Nieuwe AI-systemen werken als een videoband van een hele reis.

Hoe het werkt: De AI moet een vlucht boeken, maar eerst moet hij de prijzen checken, dan een hotel zoeken, dan een taxi regelen. Als hij faalt, is het misschien niet omdat hij de verkeerde knop drukte, maar omdat hij in stap 3 zijn notities verloor en in stap 5 op de verkeerde plek belandde.
De nieuwe verklaring: In plaats van naar één moment te kijken, kijken we naar de hele reis (de "traject"). We kijken naar de videoband om te zien: "Ah, hier vergat de AI dat hij al een hotel had geboekt, en daarom probeerde hij er nu een tweede te boeken, wat de boel verwarde."

Wat hebben ze ontdekt? (De Grote Vergelijking)

De onderzoekers hebben twee dingen met elkaar vergeleken:

A. De "Foto-methode" (Attributie)

Ze probeerden de oude methode (die kijkt naar welke woorden belangrijk zijn) toe te passen op de nieuwe AI-detectives.

Resultaat: Het werkte redelijk goed om te zeggen wat de AI over het algemeen belangrijk vindt (bijvoorbeeld: "Woorden als 'prijs' zijn vaak belangrijk").
Maar: Het kon niet vertellen waarom een specifieke missie mislukte. Het was alsof je een detective vraagt: "Waarom heb je de zaak verloren?" en hij antwoordt: "Omdat ik vaak naar deuren keek." Dat helpt je niet om de volgende keer te winnen.

B. De "Videoband-methode" (Trace-based)

Ze keken naar de volledige logboeken van wat de AI deed, stap voor stap. Ze gebruikten een controlelijstje (rubric) om te kijken of de AI zich aan de regels hield.

Resultaat: Dit werkte fantastisch! Ze konden precies zien: "In stap 4 vergat de AI zijn eigen notitie, en dat was de reden dat hij in stap 10 de verkeerde trein nam."
De ontdekking: Ze vonden dat 2,7 keer vaker fouten in de "notities" (de interne staat van de AI) voorkwamen bij mislukte pogingen. Als de AI zijn eigen verhaal vergeet, faalt hij bijna altijd.

De Analogie: De Reisplanner

Stel je voor dat je een reisplanner hebt die een vakantie voor je regelt.

Oude AI (Static): Je vraagt: "Is dit een goede vakantie?" De planner zegt: "Ja."
- Verklaring: "Ik keek naar het weer en de prijs." (Dit is de "Foto").
- Probleem: Als de vakantie een ramp wordt, zegt de planner: "Ik keek naar het weer." Maar hij vertelt je niet dat hij de ticketkassa vergeten was te boeken.
Nieuwe AI (Agentic): De planner regelt het hele verblijf.
- Verklaring: "Kijk naar mijn agenda. In dinsdagochtend heb ik vergeten te bellen met de hotelreceptie. Daardoor dacht ik dat het hotel vol was, en heb ik een duurder hotel geboekt. In donderdagochtend realiseerde ik me mijn fout, maar het was te laat."
- Dit is de "Videoband". Je ziet precies waar de kettingreactie van fouten begon.

Waarom is dit belangrijk?

Betrouwbaarheid: Als je een AI gebruikt om medicijnen te verdelen of geld te beheren, wil je niet alleen weten dat hij "goed" is. Je wilt weten waar hij faalt als hij faalt, zodat je het kunt fixen.
Van "Wat" naar "Waarom": De oude methode zegt: "Dit woord was belangrijk." De nieuwe methode zegt: "De AI vergat zijn eigen plan, en daarom koos hij de verkeerde tool."
De Toekomst: De auteurs zeggen dat we moeten stoppen met het maken van "foto's" van AI-gedrag en moeten beginnen met het maken van "videobanden". We moeten de AI niet alleen beoordelen op het eindresultaat, maar op de reis die hij heeft gemaakt.

Samenvatting in één zin

Oude AI-verklaringen kijken naar één moment in de tijd om te zien wat er belangrijk was, maar voor slimme AI-agenten die complexe taken uitvoeren, moeten we de hele film bekijken om te begrijpen waar de plotwendingen (en fouten) precies zaten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Van Kenmerken naar Acties: Verklaarbaarheid in Traditionele en Agente AI-systemen

Auteurs: Sindhuja Chaduvula et al. (Vector Institute for Artificial Intelligence, Mayo Clinic, etc.)

1. Probleemstelling

De huidige veld van Explainable AI (XAI) is grotendeels ontworpen voor statische voorspellende modellen. Traditionele methoden (zoals SHAP, LIME, saliency maps) focussen op het interpreteren van individuele voorspellingen door de relatie tussen input-kenmerken en een enkel output-resultaat te analyseren.

Het probleem ontstaat door de opkomst van agente AI-systemen (voornamelijk gebaseerd op Large Language Models of LLM's). Deze systemen opereren niet via een enkele voorspelling, maar via multi-stap trajecten die bestaan uit observaties, beslissingen, tool-aanroepen en state-updates.

De kloof: In agentische settings wordt succes of falen bepaald door een sequentie van beslissingen, niet door één output.
De uitdaging: Het is onduidelijk of bestaande XAI-methoden, die zijn ontworpen voor statische inputs, vertaalbaar zijn naar deze dynamische omgevingen. Bestaande methoden kunnen niet goed uitleggen waarom een agent een bepaalde strategie heeft verlaten, een fout heeft doorgegeven of niet heeft hersteld na een mislukking.

2. Methodologie

De auteurs introduceren een nieuw raamwerk om statische en agentische verklaarbaarheid te vergelijken en te onderscheiden.

A. Conceptueel Kader: Minimal Explanation Packet (MEP)

De paper definieert de Minimal Explanation Packet (MEP) als de fundamentele eenheid voor verklaarbaarheid. Een MEP bestaat uit drie componenten:

Verklaringsartefact: De menselijk interpreteerbare uitleg (bijv. feature attributie of een redeneringstrace).
Gekoppelde bewijslast en context: De onderliggende data (bijv. input, uitvoeringstrace, tool-logs, state-snapshots).
Verificatiesignalen: Signalen die de betrouwbaarheid aantonen (bijv. stabiliteit bij perturbatie of rubric-flags).

De auteurs onderscheiden twee types MEP's:

Statische MEP: Gebaseerd op één input-output paar (bijv. een classificatie).
Agentische MEP: Gebaseerd op een traject $\tau = (s_0, a_0, o_0, ..., s_T)$ , inclusief tool-interacties en state-evolutie.

B. Experimenteel Opzet

De studie vergelijkt twee benaderingen over twee domeinen:

Statische Setting: Een binair classificatieprobleem (IT vs. non-IT vacatures) met modellen als TF-IDF + Logistieke Regressie en Text CNN.
- Methoden: SHAP en LIME.
- Metriek: Stabiliteit van attributie-rangschikkingen onder perturbatie (Spearman $\rho$ ).
Agentische Setting: Twee benchmarks voor tool-gebruikende agents:
- TAU-bench Airline: Gestructureerde klantenservice taken (API-interacties).
- AssistantBench: Webgebaseerde assistentie taken (multi-stap navigatie).
- Methoden: Trace-based diagnostiek met behulp van behavioural rubrics (gedragsrichtlijnen) geëvalueerd door een LLM-judge (GPT-5).
- Rubrics: Intent Alignment, Plan Adherence, Tool Correctness, State Consistency, Error Recovery.

C. Brug-experiment

Om de twee werelden te verbinden, coderen de auteurs de agentische trajecten om naar binaire feature-vectoren (gebaseerd op de rubric-scores) en passen ze SHAP toe op deze geaggregeerde data om te zien of attributiemethoden hier nog zinvol zijn.

3. Belangrijkste Bijdragen

Formele Distinctie: Een duidelijke scheiding tussen verklaarbaarheid voor statische voorspellers (feature-level) en agentische systemen (traject-level).
Taxonomie: Een nieuwe taxonomie voor verklaringsdoelen en -artefacten, gaande van feature-attributie tot traject-accountability.
Empirisch Bewijs: Een directe vergelijking die aantoont dat attributiemethoden falen in het lokaliseren van specifieke fouten in agentische trajecten, terwijl trace-based diagnostiek wel effectief is.
MEP Framework: De introductie van het MEP-concept als standaard voor het bundelen van uitleg, context en verificatie.

4. Resultaten

Statische Setting

Attributiemethoden (SHAP/LIME) presteren goed in statische settings.
Stabiliteit: TF-IDF + Logistieke Regressie toonde een hoge stabiliteit ( $\rho = 0.86$ ) in feature-rangschikkingen onder perturbatie.
Beperking: Deze methoden verklaren alleen het eindresultaat en bieden geen inzicht in dynamische besluitvorming.

Agentische Setting

Foutanalyse: Attributiemethoden kunnen wel globale correlaties vinden (welke gedragsdimensies correleren met succes), maar kunnen niet betrouwbaar lokaliseren welke specifieke constraint in een mislukte run werd geschonden.
Trace-based Rubrics: Deze methode lokaliseert fouten direct en biedt diagnostische inzichten.
- TAU-bench Airline: De belangrijkste oorzaak van falen was State Tracking Inconsistency (inconsistentie in het bijhouden van de state). Dit komt 2,7x vaker voor in mislukte runs en verlaagt de succeskans met 49%. Dit suggereert een "langzame degradatie" van het traject.
- AssistantBench: Falen werd voornamelijk veroorzaakt door Tool Choice Accuracy (keuze van het verkeerde hulpmiddel). Dit is een "snelle fout": één verkeerde tak in de beslissingsboom maakt herstel onmogelijk.
Reliabiliteit: State Tracking Inconsistency is de sterkste voorspeller van falen in TAU-bench (Success rate daalt van 73,5% naar 37,5% bij een overtreding).

Brug-experiment

Wanneer agentische trajecten worden gecomprimeerd tot een laag-dimensionale feature-vector (op basis van rubrics), kunnen SHAP-waarden wel globale belanghebbende factoren identificeren.
Conclusie: Attributie is nuttig voor aggregatiedata, maar mist de causale, trace-gebaseerde diagnose die nodig is om te begrijpen waar en hoe een specifieke run faalt.

5. Betekenis en Impact

Paradigmaverschuiving: De paper pleit voor een verschuiving van "verklaring als statisch artefact" naar "verklaring als een gestructureerd account van gedrag" dat is verankerd in bewijs en verificatie.
Veiligheid en Audit: Voor kritieke toepassingen (zoals gezondheidszorg of financiën) is het niet voldoende om te weten wat het eindresultaat is; men moet begrijpen welke stappen in de tijd hebben geleid tot een fout. Trace-based rubrics maken debugging en auditing van autonome AI mogelijk.
Toekomstige Richting: Er is behoefte aan standaardisatie van traject-niveau uitlegframeworks en sterkere verificatiemechanismen die verder gaan dan correlatie, richting causale validatie en counterfactual analyses.

Samenvattend: Traditionele XAI-methoden zijn ontoereikend voor moderne agentische AI. De auteurs tonen aan dat diagnostiek op basis van uitvoeringstraces (traces) en gedragsrichtlijnen (rubrics) essentieel is om de complexiteit van multi-stap beslissingen, state-drift en tool-fouten te begrijpen en te corrigeren.