AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems

Each language version is independently generated for its own context, not a direct translation.

AGENTTRACE: Der Detektiv für Roboter-Teams

Stell dir vor, du hast ein Team aus fünf sehr klugen, aber manchmal etwas verwirrten Robotern, die zusammenarbeiten, um eine komplexe Aufgabe zu erledigen – zum Beispiel einen Online-Shop zu verwalten oder einen Code zu schreiben. Sie sprechen miteinander, tauschen Ideen aus und treffen Entscheidungen. Das klingt toll, aber was passiert, wenn das ganze System plötzlich abstürzt?

In der echten Welt ist das wie ein riesiges Puzzle, bei dem die Teile sich ständig bewegen. Wenn am Ende alles schiefgeht, ist es oft schwer zu sagen, wer genau den ersten Fehler gemacht hat. Vielleicht hat Roboter A eine falsche Anweisung gegeben, weil Roboter B ihm eine missverständliche Nachricht geschickt hat, die wiederum auf einem Missverständnis von Roboter C beruhte.

Das ist das Problem, das die Forscher mit AGENTTRACE lösen wollen.

Das Problem: Der "Schuldige" ist schwer zu finden

Wenn ein solches Agenten-Team einen Fehler macht, schauen sich die Entwickler normalerweise die Protokolle (die "Tagebücher" der Roboter) an. Das ist wie der Versuch, einen Einbruch zu lösen, indem man sich nur die kaputte Tür ansieht, ohne zu wissen, wer wann das Haus betreten hat.

Bisherige Methoden waren oft:

Zufall: "Vielleicht war es der erste Roboter?" (Oft falsch).
Der letzte Schritt: "Der Fehler war ja gerade erst passiert!" (Aber das ist nur die Folge, nicht die Ursache).
Ein sehr teurer KI-Experte: Man fragt eine große KI (wie GPT-4), sie soll den ganzen Text lesen und raten. Das kostet viel Zeit und Geld, und die KI irrt sich manchmal trotzdem.

Die Lösung: AGENTTRACE – Der intelligente Spürhund

AGENTTRACE ist wie ein super-schneller, billiger und sehr logischer Detektiv, der nicht raten muss, sondern die Spuren genau verfolgt.

Hier ist, wie es funktioniert, mit ein paar einfachen Vergleichen:

1. Die Landkarte zeichnen (Der Kausale Graph)

Stell dir vor, jeder Schritt, den ein Roboter macht, ist ein Punkt auf einer Landkarte. Wenn Roboter A eine Nachricht an Roboter B schickt, zieht der Detektiv eine Linie zwischen den beiden Punkten.

Das Ergebnis: Eine riesige, aber klare Landkarte, die zeigt, wer wem gesagt hat, was. Man sieht sofort, wie sich Informationen durch das Team bewegen.

2. Rückwärts laufen (Backward Tracing)

Wenn am Ende ein Fehler auftritt (z. B. "Der Roboter hat die falsche Adresse geschickt"), geht der Detektiv nicht vorwärts, sondern läuft die Landkarte rückwärts ab.

Die Analogie: Stell dir vor, du findest eine verschmutzte Tasse Kaffee auf dem Boden. Anstatt zu raten, wer sie hingestellt hat, gehst du den Weg zurück: Du siehst, dass die Tasse von Tisch B kam, wo sie von Person X abgestellt wurde, die sie von Person Y bekommen hat. So kommst du bis zum Ursprung.

3. Die Verdächtigen bewerten (Das Ranking)

Jetzt hat der Detektiv eine Liste von möglichen "Schuldigen" (allen Punkten, die vor dem Fehler lagen). Wie findet er den wahren Übeltäter? Er nutzt fünf einfache Regeln, die er wie eine Waage gewichtet:

Der "Wann"-Faktor (Am wichtigster!): Fehler, die früh in der Geschichte passieren, sind oft die wahren Übeltäter. Wenn der Planer am Anfang einen Fehler macht, ist das wie ein falscher Kompass – der ganze Restweg führt ins Leere. AGENTTRACE weiß: Je früher ein Schritt war, desto wahrscheinlicher ist er die Ursache.
Der "Wer"-Faktor: Hat der Roboter viele andere beeinflusst? (Wie ein Chef, der viele Mitarbeiter anweist).
Der "Was"-Faktor: Stehen in der Nachricht Wörter wie "Fehler" oder "Vielleicht"?
Der "Wechsel"-Faktor: Wurde die Nachricht zwischen zwei verschiedenen Robotern ausgetauscht? (Oft passiert dort Missverständnisse).
Der "Zweifel"-Faktor: Hat der Roboter selbst gezögert ("Ich bin mir nicht sicher")?

Warum ist das so cool?

Es ist blitzschnell: Während ein teurer KI-Experte 8 Sekunden braucht, um den Text zu lesen und zu überlegen, braucht AGENTTRACE nur 0,12 Sekunden. Das ist wie der Unterschied zwischen einem Schachgroßmeister, der eine Stunde über einen Zug nachdenkt, und einem Kind, das sofort sieht, dass der König im Schachmatt steht.
Es ist billig: Es braucht keine teure Rechenleistung.
Es ist genau: In Tests hat AGENTTRACE in 95 % der Fälle den wahren Schuldigen sofort gefunden (als erste Wahl). Die besten anderen Methoden lagen nur bei ca. 68 %.

Ein kleines Beispiel aus dem Papier

Szenario: Ein Roboter-Team soll einen Code schreiben.
Der Fehler: Der Code funktioniert nicht.
Die alte Methode (KI-Experte): Schaut sich den Fehler an und sagt: "Ah, der Fehler ist in Zeile 20!" (Das ist aber nur, wo der Code explodiert ist).
AGENTTRACE: Schaut sich die Landkarte an, läuft zurück und sagt: "Nein! Der wahre Fehler war in Schritt 3, als der Planer gesagt hat: 'Teile die Zahlen durch Null'. Das war der Anfang des Problems."

Fazit

AGENTTRACE ist wie ein Super-Werkzeug für die Zukunft. Da immer mehr Roboter-Teams in der echten Welt arbeiten (in Krankenhäusern, bei der Bank, im Kundenservice), müssen wir wissen, warum sie scheitern, damit wir ihnen vertrauen können.

Statt stundenlang in Logs zu wühlen, gibt uns AGENTTRACE sofort die Antwort: "Hier ist der Fehler, und er ist schon lange passiert." Das macht unsere KI-Systeme sicherer, schneller und verständlicher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem zunehmenden Einsatz von Multi-Agenten-Systemen (basierend auf Large Language Models, LLMs) in realen Szenarien wie automatisiertem Kundenservice oder DevOps-Remediation treten komplexe Fehler auf. Diese Fehler sind schwer zu diagnostizieren, da sie oft durch kaskadierende Effekte, versteckte Abhängigkeiten und lange Ausführungspfade entstehen.

Herausforderung: In verteilten Agenten-Workflows manifestiert sich ein Fehler oft weit entfernt von seiner eigentlichen Ursache. Bis ein Fehler erkannt wird, haben oft mehrere Agenten bereits auf korrupten Annahmen agiert.
Limitierung bestehender Ansätze: Traditionelle Debugging-Methoden, die einzelne Komponenten isoliert betrachten, erfassen die kausalen Abhängigkeiten zwischen den Agenten nicht. Bestehende LLM-basierte Self-Debugging-Ansätze sind oft zu rechenintensiv (teure Inferenz) und scheitern bei der Analyse cross-agentischer Probleme.

2. Methodik: Das AGENTTRACE-Framework

AGENTTRACE ist ein leichtgewichtiges Framework für die post-hoc-Fehlerdiagnose, das keine LLM-Inferenz zur Laufzeit des Debuggings benötigt. Es basiert auf drei Hauptschritten:

A. Konstruktion des kausalen Graphen

Die Ausführung eines Multi-Agenten-Systems wird als gerichteter azyklischer Graph $G = (V, E)$ modelliert:

Knoten ( $V$ ): Repräsentieren Agenten-Aktionen (Tool-Aufrufe, Nachrichten, Entscheidungen).
Kanten ( $E$ ): Erfassen drei Arten von Abhängigkeiten:
1. Sequenzielle Kanten: Verbinden aufeinanderfolgende Aktionen desselben Agenten.
2. Kommunikations-Kanten: Verbinden Nachrichten-Sende- und -Empfangsereignisse zwischen verschiedenen Agenten.
3. Daten-Abhängigkeits-Kanten: Verbinden Aktionen, die Daten produzieren, mit denen, die diese Daten konsumieren (basierend auf Variablen-Referenzen).

B. Rückwärtige Verfolgung (Backward Tracing)

Ausgehend vom Fehlerknoten ( $v_{error}$ ) wird eine Breitensuche (BFS) rückwärts durch den Graphen durchgeführt, um alle potenziell relevanten Vorfahren innerhalb eines definierten Tiefenlimits zu sammeln. Dies erzeugt eine Menge von Kandidatenknoten für die Fehlerursache.

C. Ranking-Algorithmus

Die Kandidatenknoten werden basierend auf einer gewichteten linearen Kombination von fünf Feature-Gruppen sortiert, um die wahrscheinlichste Wurzelursache zu identifizieren:

Positions-Features ( $w_p = 0.70$ ): Die dominierenden Merkmale. Dazu gehören die normalisierte Position im Pfad, die Distanz zum Fehler (Hop-Count) und die Tiefe im Trace.
Struktur-Features ( $w_s = 0.20$ ): Graph-Topologie-Metriken wie Out-Degree, Betweenness-Zentralität und Fanout-Verhältnis.
Inhalts-Features ( $w_c = 0.05$ ): Semantische Indikatoren wie das Vorkommen von Fehlerbegriffen („error", „failed") oder Unsicherheitsmarkern.
Flow-Features ( $w_f = 0.03$ ): Muster der Agenten-Interaktion (z. B. Wechsel des Agenten, Rollen-Kritikalität).
Vertrauens-Features ( $w_e = 0.02$ ): Vom Modell gemeldete Konfidenzscore oder hedging-Sprache.

Die Gewichte wurden durch Grid-Search auf einem validierten Datensatz optimiert.

3. Wichtige Beiträge

Leichtgewichtiges Framework: AGENTTRACE verzichtet auf teure LLM-Inferenz während des Debuggings und nutzt stattdessen interpretierbare strukturelle und positionsbasierte Signale.
Kausale Graph-Rekonstruktion: Eine systematische Methode zur Extraktion von kausalen Abhängigkeiten aus Ausführungsprotokollen (Logs).
Empirische Validierung: Eine umfassende Studie mit 550 synthetischen Fehler-Szenarien über 10 Domänen hinweg, die zeigt, dass einfache strukturelle Merkmale oft effektiver sind als komplexe LLM-Analysen für die Fehlerlokalisierung.

4. Ergebnisse

Das Framework wurde an einem Benchmark mit 550 Szenarien (u. a. Softwareentwicklung, DevOps, Finanzen, Gesundheitswesen) evaluiert:

Genauigkeit: AGENTTRACE erreicht eine Hit@1-Accuracy von 94,9% und eine MRR (Mean Reciprocal Rank) von 0,97.
Vergleich mit Baselines:
- Deutlich überlegen gegenüber heuristischen Ansätzen (z. B. „Letzter Knoten": 12,7% Hit@1).
- Signifikant besser als LLM-basierte Analysen (GPT-4): AGENTTRACE (94,9%) vs. LLM (68,5%). Der LLM-Ansatz scheitert häufig daran, den Fehlerknoten selbst als Ursache zu identifizieren, anstatt zurückzuverfolgen.
Latenz: Die durchschnittliche Verarbeitungszeit beträgt 0,12 Sekunden (sub-second), im Vergleich zu 8,3 Sekunden für die LLM-Analyse (ein 69-facher Geschwindigkeitsvorteil).
Ablationsstudie: Positions-Features allein erreichen bereits 87,3% Genauigkeit, was bestätigt, dass Fehler in Multi-Agenten-Systemen oft durch frühe Planungs- oder Routing-Entscheidungen verursacht werden, die sich kaskadierend auswirken.

5. Bedeutung und Ausblick

Praktische Anwendbarkeit: Die hohe Geschwindigkeit und Genauigkeit machen AGENTTRACE ideal für interaktive Debugging-Workflows in Produktionsumgebungen, wo Echtzeit-Feedback entscheidend ist.
Vertrauen und Sicherheit: Das Framework bietet eine fundierte Basis für die Nachanalyse von Fehlern in hochriskanten Domänen, was für die Zuverlässigkeit und das Vertrauen in autonome Agenten-Systeme essenziell ist.
Zukünftige Arbeiten: Geplant ist die Erweiterung auf mehrere gleichzeitige Wurzelursachen und die Validierung an echten Produktions-Traces (statt nur synthetischen Szenarien).

Fazit: AGENTTRACE demonstriert, dass für die Fehlerdiagnose in Multi-Agenten-Systemen oft einfache, interpretierbare kausale Graphen-Analysen effektiver und effizienter sind als komplexe, rechenintensive LLM-Inferenzen.