XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde robot hebt die voor jou code schrijft. Je vraagt hem: "Maak een website voor mijn bakkerij." De robot begint enthousiast te werken, maar na een tijdje stopt hij en zegt: "Ik kan het niet."

Als je kijkt naar wat de robot heeft gedaan, zie je alleen een enorme, chaotische berg papier (de "raw execution trace"). Het staat vol met technische termen, foutmeldingen en gedachtestructuren die lijken op een vreemde taal. Zelfs voor een ervaren programmeur is het een puzzel om te ontdekken waarom de robot vastliep. Voor iemand zonder technische kennis is het compleet onbegrijpelijk.

Dit is precies het probleem dat Arun Joshi in zijn paper probeert op te lossen. Hij heeft een nieuw systeem bedacht dat deze "robotfouten" vertaalt naar iets dat iedereen kan begrijpen.

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Black Box" van de Robot

Wanneer een AI-agent (zoals een programmeer-assistent) faalt, krijg je vaak alleen maar de ruwe logboeken.

De Analogie: Stel je voor dat je auto kapot gaat en de monteur je alleen een stapel losse schroeven, een stukje rubber en een lijstje met cijfers geeft. Hij zegt: "Kijk maar, hier is het probleem." Jij kijkt er naar en denkt: "Maar wat betekent dit? Moet ik de banden vervangen of de motor?"
De Realiteit: Zelfs als je een andere AI (zoals een gewone chatbot) vraagt om dit uit te leggen, geeft die vaak willekeurige antwoorden. Soms is het antwoord te kort, soms te lang, en soms mist het de belangrijke details. Het is als een gids die je door een donker bos leidt, maar die elke keer een ander pad kiest.

2. De Oplossing: De "Diplomaat" voor Robotfouten

Joshi heeft een systeem gebouwd dat fungeert als een tussenpersoon of een diplomaat tussen de robot en de mens. Dit systeem doet drie dingen:

A. De "Fouten-Atlas" (Taxonomie)

Het systeem heeft een grote atlas gemaakt van alle mogelijke manieren waarop programmeer-robots kunnen falen.

De Analogie: Stel je voor dat een dokter een ziektekalender heeft. Als een patiënt hoest, kijkt de dokter niet zomaar naar de hoest, maar vergelijkt hij het met de kalender: "Ah, dit is 'Fout 4: Verkeerde diagnose'."
In de paper: Het systeem heeft 32 echte fouten geanalyseerd en ingedeeld in categorieën, zoals "De robot begreep de opdracht niet" of "De robot gaf te snel op."

B. De "Visuele Kaart" (Visualisatie)

In plaats van alleen tekst, tekent het systeem een kaart van wat de robot heeft gedaan.

De Analogie: Als je een wandeling maakt en verdwaalt, is een lijst met "linksaf, rechtsaf, 100 meter lopen" lastig. Maar een GPS-kaart met een rode lijn die precies laat zien waar je de verkeerde afslag nam, is duidelijk.
In de paper: Het systeem maakt een visueel diagram (een stroomdiagram) dat laat zien waar de robot de verkeerde beslissing nam. Je ziet direct het "knelpunt" in de lijn.

C. De "Reparatiegids" (Aanbevelingen)

Het systeem geeft niet alleen aan wat er mis is, maar ook hoe je het oplost.

De Analogie: Een gewone gids zegt: "Je auto is stuk." De nieuwe gids zegt: "Je auto is stuk omdat je benzine op was. Hier is de dichtstbijzijnde tankstation en hier is hoe je de benzine erin doet."
In de paper: Het geeft concrete tips: "Verander de instructie," "Geef de robot meer tijd," of "Voeg een extra controle toe."

3. Wat hebben ze getest? (De "Proefpersoon" Test)

Ze hebben dit systeem getest met 20 mensen: 10 programmeurs en 10 mensen zonder technische achtergrond (zoals projectmanagers of ontwerpers). Ze gaven hen allemaal een fout van een robot en vroegen hen om het op te lossen.

De resultaten waren verrassend goed:

Snelheid: Mensen vonden de oorzaak van de fout 2,8 keer sneller met Joshi's systeem dan met de ruwe logboeken.
Nauwkeurigheid: Ze vonden de juiste oplossing 73% vaker dan wanneer ze alleen naar de ruwe data keken.
Zekerheid: Mensen voelden zich veel zekerder (een 6,1 op 7) dat ze het probleem echt begrepen.

4. Waarom is dit belangrijk?

Vroeger was het debuggen van AI-robots als naalden zoeken in een hooiberg. Je wist niet waar je moest zoeken.
Met dit systeem is het alsof iemand de hooiberg heeft schoongemaakt en de naalden in een mooi doosje heeft gedaan met labels.

Voor programmeurs betekent dit minder tijd verspillen aan het zoeken naar fouten en meer tijd om te bouwen.
Voor niet-technische mensen (zoals managers) betekent dit dat ze kunnen begrijpen waarom een AI-tool faalt en of ze erop kunnen vertrouwen, zonder zelf een programmeur te hoeven zijn.

Conclusie

De kernboodschap van dit onderzoek is simpel: AI wordt slimmer, maar we moeten leren hoe we met die slimmigheid omgaan.

Als we AI-agenten willen gebruiken in de echte wereld, kunnen we niet wachten tot ze perfect zijn. We moeten tools hebben die ons vertellen waarom ze fouten maken, net zoals een goede leraar niet alleen het antwoord geeft, maar uitlegt waarom het antwoord verkeerd was en hoe je het de volgende keer goed doet.

Dit onderzoek biedt die "leraar" voor AI-fouten: een systeem dat van een chaotische berg technische data een heldere, visuele en bruikbare handleiding maakt.

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

1. Het Probleem: De "Black Box" van de Robot

2. De Oplossing: De "Diplomaat" voor Robotfouten

A. De "Fouten-Atlas" (Taxonomie)

B. De "Visuele Kaart" (Visualisatie)

C. De "Reparatiegids" (Aanbevelingen)

3. Wat hebben ze getest? (De "Proefpersoon" Test)

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten (Gebruikersstudie)

Betekenis en Conclusie

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

1. Het Probleem: De "Black Box" van de Robot

2. De Oplossing: De "Diplomaat" voor Robotfouten

A. De "Fouten-Atlas" (Taxonomie)

B. De "Visuele Kaart" (Visualisatie)

C. De "Reparatiegids" (Aanbevelingen)

3. Wat hebben ze getest? (De "Proefpersoon" Test)

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten (Gebruikersstudie)

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem