Each language version is independently generated for its own context, not a direct translation.

Vom einzelnen Foto zur ganzen Reise: Warum wir KI anders verstehen müssen

Stellen Sie sich vor, Sie wollen verstehen, wie ein KI-System Entscheidungen trifft. In der Vergangenheit war das wie das Betrachten eines einzelnen Fotos. Heute, mit den neuen „Agenten-KIs", ist es eher wie das Nachverfolgen einer ganzen Reise.

Dieses Papier von Sindhuja Chaduvula und ihrem Team am Vector Institute sagt uns: Die alten Methoden, um KI zu erklären, funktionieren für die neuen, selbstständigen KIs nicht mehr.

Hier ist die Geschichte, warum das so ist und was die Forscher stattdessen vorschlagen.

1. Der alte Weg: Das Foto (Traditionelle KI)

Stellen Sie sich eine traditionelle KI vor wie einen Koch, der ein Gericht zubereitet.

Der Input: Sie geben ihm Zutaten (z. B. Tomaten, Basilikum).
Der Output: Er gibt Ihnen ein fertiges Gericht (Tomatensuppe).
Die Erklärung: Wenn Sie fragen „Warum schmeckt die Suppe so?", schaut der Koch auf die Zutaten. Er sagt: „Ah, das Basilikum war der Hauptgrund für den Geschmack."

Das ist das, was wir in der KI-Welt als „Attribution" bezeichnen (z. B. SHAP oder LIME). Man schaut auf den Input und sagt: „Dieses Wort oder dieses Pixel war für das Ergebnis am wichtigsten." Das funktioniert super, wenn die KI nur einmal entscheidet und fertig ist.

2. Der neue Weg: Die Reise (Agentic KI)

Heute haben wir aber keine einfachen Köche mehr, sondern Reiseleiter mit einem ganzen Team. Diese neuen KIs (Agenten) müssen komplexe Aufgaben lösen, wie „Buche einen Flug und finde ein Hotel".

Sie machen nicht nur einen Schritt. Sie machen Dutzende von Schritten: Sie googeln, vergleichen Preise, rufen eine API auf, merken sich den Preis, ändern den Plan, wenn ein Flug abgesagt wird, und buchen dann.
Das Problem: Wenn die Reise schiefgeht (z. B. der Flug wird nicht gebucht), reicht es nicht zu sagen: „Das Wort 'Flug' war schuld."
Die wahre Frage: „Wo genau in der Reise hat sich der Reiseleiter verirrt? Hat er den falschen Zug genommen? Hat er vergessen, dass er schon Geld ausgegeben hat? Oder hat er sich im Gedächtnis verlaufen?"

Die alten Methoden (das „Foto") können diese Reise nicht erklären. Sie sehen nur das Ende, nicht den Weg.

3. Der große Test: Was passiert, wenn wir die alten Methoden auf die neue Reise anwenden?

Die Forscher haben einen spannenden Vergleich angestellt:

Szenario A (Das Foto): Eine KI sortiert Stellenanzeigen in „IT" oder „Nicht-IT".
- Ergebnis: Die alten Erklärungs-Methoden funktionieren hier perfekt. Sie zeigen stabil, welche Wörter wichtig waren. (Wie ein stabiles Foto).
Szenario B (Die Reise): Eine KI versucht, Flugtickets zu buchen oder im Internet zu recherchieren.
- Ergebnis: Die alten Methoden versagen kläglich. Sie können nicht sagen, warum die Buchung gescheitert ist. Sie sehen nur, dass am Ende etwas falsch war, aber nicht, ob die KI den falschen Button gedrückt hat, den falschen Preis im Kopf hatte oder die falsche Datenbank abgefragt hat.

Die Erkenntnis: In der Reise-Welt sind Fehler oft wie ein dominoartiger Effekt. Ein kleiner Fehler im ersten Schritt (z. B. eine falsche Notiz im Gedächtnis) führt dazu, dass alle folgenden Schritte falsch sind. Die alten Methoden können diesen Domino-Effekt nicht sehen.

4. Die neue Lösung: Der Reise-Tagebuch-Ansatz (Trace-Based Diagnostics)

Da das alte Foto nicht reicht, schlagen die Forscher vor, das ganze Tagebuch der Reise zu lesen.

Stellen Sie sich vor, der KI-Agent schreibt bei jedem Schritt auf:

Was habe ich gerade gedacht? (Plan)
Was habe ich gerade getan? (Aktion/Tool)
Was hat die Welt mir geantwortet? (Ergebnis)

Die Forscher haben eine neue Art von „Checkliste" (Rubrik) entwickelt, um diese Tagebücher zu lesen. Sie prüfen nicht nur das Endergebnis, sondern fragen:

„War der Plan logisch?"
„Hat der Agent das richtige Werkzeug benutzt?"
Wichtigste Frage: „Hat der Agent seine eigene Notiz (den Zustand) im Laufe der Zeit konsistent behalten?"

Das Ergebnis war schockierend:
In den Fällen, in denen die KI gescheitert ist, war der häufigste Grund nicht ein falsches Werkzeug, sondern dass sie ihre eigene Geschichte vergessen oder verfälscht hatte (State Tracking Inconsistency).

Vergleich: Es ist, als würde ein Reiseleiter sagen: „Ich habe den Zug genommen", aber in seinem Tagebuch steht, er sei zu Fuß gegangen. Wenn er das vergisst, kommt er nie am Ziel an.
Die Studie zeigte: Wenn die KI ihren „Zustand" (ihre Notizen) nicht konsistent hielt, sank die Erfolgschance um 49 %.

5. Was bedeutet das für uns? (Die „Minimal Explanation Packet")

Die Forscher schlagen vor, dass wir aufhören sollten, nur nach dem „Warum" für ein einzelnes Ergebnis zu fragen. Stattdessen brauchen wir ein „Minimales Erklärungspaket" (MEP) für jede Reise.

Ein solches Paket enthält:

Die Erklärung: „Hier ist, was passiert ist."
Der Beweis: „Hier ist das Tagebuch (die Log-Datei), das zeigt, dass es wirklich so passiert ist."
Die Verifizierung: „Hier ist der Stempel des Prüfers, der bestätigt, dass die Geschichte stimmt und keine Lücken hat."

Fazit in einem Satz

Früher haben wir KI erklärt, indem wir auf das Ergebnis schauten (wie ein Foto). Heute müssen wir die Reise erklären (wie ein Tagebuch), weil Fehler in der KI oft nicht beim Start oder Ende passieren, sondern weil sie sich auf dem Weg selbst im Gedächtnis verloren haben.

Die Botschaft: Wenn wir KI-Systeme vertrauenswürdig machen wollen, die selbstständig Aufgaben erledigen, müssen wir aufhören, nur auf das Endergebnis zu starren, und anfangen, den gesamten Weg genau zu verfolgen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert eine fundamentale Lücke in der Erklärbarkeit Künstlicher Intelligenz (XAI). Traditionelle XAI-Methoden (wie SHAP, LIME oder Saliency Maps) wurden für statische Vorhersagemodelle entwickelt, bei denen ein einzelner Eingabewert zu einer einzelnen Ausgabe führt ( $y = f(x)$ ). Diese Methoden liefern post-hoc Erklärungen auf Feature-Ebene, die zeigen, welche Eingabe-Features die Vorhersage beeinflusst haben.

Mit dem Aufkommen agenter KI-Systeme (basierend auf Large Language Models, LLMs), die komplexe Aufgaben durch Sequenzen von Beobachtungen, Entscheidungen und Werkzeugaufrufen (Tools) lösen, versagen diese statischen Ansätze.

Der Kernkonflikt: Der Erfolg oder Misserfolg agentischer Systeme hängt nicht von einem einzelnen Schritt ab, sondern von der Integrität der gesamten Trajektorie (Sequenz von Zuständen, Aktionen und Beobachtungen).
Die Herausforderung: Es ist unklar, wie sich attributionsbasierte Erklärungen (die auf Features fokussieren) auf dynamische Umgebungen übertragen lassen, in denen Fehler durch inkonsistente Zustandsverfolgung, falsche Werkzeugwahl oder fehlgeschlagene Fehlerkorrekturen über mehrere Schritte hinweg entstehen.

2. Methodik und Rahmenwerk

Die Autoren entwickeln einen vergleichenden Rahmen, um statische und agentische Erklärbarkeit zu kontrastieren und zu evaluieren.

A. Paradigmen-Unterscheidung und MEP

Sie führen das Konzept des Minimal Explanation Packet (MEP) ein, um Erklärungsartefakte in ihren Kontext zu setzen:

Statisches MEP: Artefakt (z.B. SHAP-Werte) + Kontext (Eingabe/Label) + Verifikation (Stabilität bei Perturbation).
Agentisches MEP: Artefakt (z.B. Ausführungs-Trace) + Kontext (Werkzeugaufrufe, Zustandsupdates, Umgebungsfeedback) + Verifikation (Rubrik-basierte Flags, Replay-Konsistenz).

Sie definieren vier Kriterien zur Bewertung von Erklärungen in beiden Settings:

Scope: Einzelne Vorhersage vs. gesamte Trajektorie.
Grounding: Verknüpfung mit Eingabe-Features vs. Verknüpfung mit Werkzeugaufrufen und Zustandsdaten.
Reliability/Faithfulness: Stabilität bei Perturbation vs. Replay-Konsistenz und Rubrik-Flags.
Auditability: Post-hoc Feature-Inspektion vs. schrittweises Replay und Fehlerlokalisierung.

B. Experimentelles Setup

Die Studie vergleicht zwei Ansätze über zwei Szenarien hinweg:

Statisches Szenario: Binäre Klassifikation von Job-Postings (IT vs. nicht-IT) mit TF-IDF/Logistic Regression und Text-CNN. Hier werden SHAP und LIME verwendet.
Agentisches Szenario: Zwei LLM-Agenten-Benchmarks:
- TAU-bench Airline: Strukturierte Flugbuchungsaufgaben mit API-Interaktionen.
- AssistantBench: Web-basierte Assistenzaufgaben mit Multi-Step-Navigation.
- Modelle: GPT-4.1 und o4-mini.
- Auswertung: Die Ausführungs-Traces werden mit Docent (einem Rubrik-basierten Evaluierungsframework) analysiert. Ein LLM-Judge (GPT-5) bewertet jede Ausführung anhand vordefinierter Verhaltensrubriken (z.B. Intent Alignment, State Consistency, Tool Correctness).

C. Brücken-Experiment

Um die beiden Paradigmen direkt zu vergleichen, kodieren die Autoren die agentischen Traces in einen binären Feature-Vektor (basierend auf den Rubrik-Verletzungen) und trainieren einen logistischen Regressor, um Erfolg/Misserfolg vorherzusagen. Anschließend wenden sie SHAP auf diese Rubrik-Features an, um zu sehen, ob attributionsbasierte Methoden hier sinnvolle globale Rankings liefern.

3. Wichtige Beiträge

Formale Unterscheidung: Etablierung einer klaren Trennung zwischen Erklärbarkeit für statische Prädiktoren (Feature-Level) und agentische Systeme (Trajektorien-Level).
Taxonomie: Entwicklung einer Taxonomie für Erklärungsziele und -artefakte, die von Feature-Attributionen bis zu Trajektorien-Accounts reicht.
Empirischer Vergleich: Der erste direkte Vergleich von attributionsbasierten Methoden (statisch) und trace-basierten Diagnosen (agentic) unter Verwendung einheitlicher Kriterien.
Minimal Explanation Packet (MEP): Ein neues Konzept, das Erklärungen nicht als isolierte Artefakte, sondern als Bündel aus Artefakt, Kontext und Verifikationssignalen definiert.

4. Ergebnisse

Die experimentellen Ergebnisse zeigen einen deutlichen Paradigmenwechsel:

Statische Settings:
- Attributionen (SHAP/LIME) liefern stabile Feature-Rankings (Spearman $\rho \approx 0.86$ ).
- Sie sind gut geeignet, um zu verstehen, welche Eingabewörter die Vorhersage beeinflussen, aber sie geben keine Aufschlüsse über Entscheidungsprozesse über die Zeit.
Agentische Settings:
- Versagen von Attributionen: Selbst wenn man Traces in Rubrik-Features komprimiert und SHAP anwendet, liefern diese nur korrelative globale Rankings (z.B. „State Consistency" ist wichtig). Sie können nicht zuverlässig lokalisieren, wo und warum eine spezifische Ausführung fehlgeschlagen ist.
- Erfolg von Trace-basierten Rubriken: Die Rubrik-Evaluierung (Docent) lokalisiert Fehler präzise auf Ausführungsebene.
  - TAU-bench Airline: Der häufigste Fehlergrund ist State Tracking Consistency (Zustandsinkonsistenz). Diese Fehler treten in gescheiterten Runs 2,7-mal häufiger auf als in erfolgreichen und reduzieren die Erfolgswahrscheinlichkeit um 49%. Dies deutet auf ein „langsames Versagen" hin, bei dem kleine Inkonsistenzen sich über die Zeit aufsummieren.
  - AssistantBench: Fehler werden hier oft durch seltene, aber entscheidende Fehler in der Tool Choice Accuracy verursacht („schnelles Versagen"). Ein falscher Werkzeugwahl-Schritt führt oft zum sofortigen Scheitern.
- Diagnostischer Wert: Trace-basierte Erklärungen können spezifische Verstöße (z.B. falsche Tool-Parameter, veraltete State-Informationen) identifizieren, die für das Scheitern verantwortlich sind, während SHAP nur allgemeine Korrelationen aufzeigt.

5. Bedeutung und Schlussfolgerung

Das Paper argumentiert, dass die XAI-Community von einer Feature-zentrierten zu einer Trajektorien-zentrierten Sichtweise wechseln muss, um autonome KI-Systeme zu verstehen.

Praktische Implikation: Für sicherheitskritische Anwendungen (z.B. Finanzen, Gesundheitswesen) reicht es nicht aus zu wissen, dass ein Agent falsch lag. Es muss erklärt werden können, welcher Schritt in der Sequenz (z.B. ein inkonsistenter Zustand oder ein falscher Tool-Call) zum Fehler führte.
Theoretischer Beitrag: Erklärbarkeit wird neu als Eigenschaft der Agenten-Ausführung (und nicht nur der Modell-Inferenz) definiert.
Zukunftsausblick: Die Autoren fordern Frameworks, die nicht nur korrelative Diagnosen liefern, sondern durch Interventionen und kontrafaktische Analysen kausale Hypothesen über Agentenfehler validieren können.

Zusammenfassend zeigt die Arbeit, dass traditionelle XAI-Methoden für statische Modelle zwar robust sind, aber für die Diagnose von Fehlern in komplexen, mehrstufigen Agentensystemen unzureichend sind. Trace-grounded Rubrik-Analysen bieten eine überlegene, diagnostisch handhabbare Alternative.

From Features to Actions: Explainability in Traditional and Agentic AI Systems