Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Agentic AI-System (ein autonomer KI-Agent) ist wie ein hochintelligenter, aber manchmal etwas chaotischer Assistent, den Sie eingestellt haben, um komplexe Aufgaben für Sie zu erledigen.

Im Gegensatz zu einem normalen Computerprogramm, das strikt Befehle ausführt („Wenn X, dann Y"), oder einem einfachen Chatbot, der nur redet, handelt dieser Assistent. Er plant Schritte, nutzt Werkzeuge (wie eine Taschenrechner-App oder eine E-Mail-Funktion), merkt sich Dinge und passt sich an.

Das Problem? Weil er so viel Freiheit hat, gehen Dinge schief – und zwar auf eine Weise, die für Software-Entwickler völlig neu ist. Diese Forscher haben sich genau diese Fehler angesehen, um zu verstehen, warum der Assistent manchmal „verrückt spielt".

Hier ist die einfache Erklärung der Studie, mit ein paar anschaulichen Vergleichen:

1. Das große Problem: Der Assistent ist ein Hybrid

Stellen Sie sich den Agenten als ein Orchester vor, in dem zwei völlig unterschiedliche Musiker spielen:

Musiker A (Der klassische Code): Ein strenger Dirigent, der alles genau nach Partitur macht. Wenn er einen Fehler macht, ist es ein klarer Notenfehler.
Musiker B (Die KI/LLM): Ein Jazz-Musiker, der improvisiert. Er ist kreativ, aber manchmal halluziniert er Noten, die es gar nicht gibt, oder vergisst den Takt.

Wenn diese beiden zusammenarbeiten, entstehen Fehler, die es in der normalen Software-Welt so nicht gibt. Der Dirigent (Code) versucht, den Jazz-Musiker (KI) zu steuern, aber manchmal versteht der Jazz-Musiker die Anweisungen falsch, oder der Dirigent vergisst, dass der Jazz-Musiker müde wird (Token-Limits).

2. Was haben die Forscher getan? (Die Detektivarbeit)

Die Forscher haben sich wie Privatdetektive verhalten.

Sie haben 13.602 Fehlerberichte aus 40 verschiedenen Projekten gesammelt. Das ist wie das Durchsuchen von Tausenden von Beschwerdebriefen von Kunden, die ihren Assistenten genutzt haben.
Davon haben sie 385 besonders interessante Fälle herausgepickt und genau untersucht.
Sie haben ein Katalog-System (Taxonomie) erstellt, um diese Fehler zu sortieren. Statt zu sagen „Es ist kaputt", sagen sie jetzt: „Es ist ein Fehler im Gedächtnis des Assistenten" oder „Er hat das Werkzeug falsch benutzt".

3. Die drei Hauptkategorien der Fehler

Die Forscher haben die Fehler in drei Gruppen eingeteilt, die man sich wie die Körperbereiche des Assistenten vorstellen kann:

A. Das Gehirn (Kognition & Steuerung)

Hier passiert es, wenn der Assistent nicht weiß, was er tun soll.

Beispiel: Er denkt, er soll eine E-Mail schreiben, aber er verwechselt den Absender. Oder er gerät in eine Endlosschleife („Ich muss das prüfen... ich muss das prüfen..."), weil er nie aufhört.
Vergleich: Wie ein Navigator, der sagt: „Fahren Sie nach links", aber Sie fahren in eine Sackgasse, weil die Karte veraltet ist.

B. Die Hände (Werkzeuge & Aktionen)

Hier scheitert der Assistent daran, Dinge in der echten Welt zu tun.

Beispiel: Er versucht, eine Datei zu speichern, aber der Ordner existiert nicht. Oder er vergisst sein Passwort für einen Dienst.
Vergleich: Wie ein Koch, der ein Rezept perfekt versteht, aber die Pfanne ist zu klein oder der Herd ist aus.

C. Die Füße (Laufumgebung & Abhängigkeiten)

Das sind die Probleme mit dem Boden, auf dem der Assistent steht.

Beispiel: Die Software, die er braucht, ist veraltet oder passt nicht zum Betriebssystem.
Vergleich: Wie ein Läufer, der zwar fit ist, aber auf einem Weg läuft, der gerade umgebaut wird (Fehlende Bibliotheken, falsche Versionen).

4. Die Entdeckung: Fehler sind ansteckend (Propagation)

Das Spannendste an der Studie ist, wie Fehler sich ausbreiten. Die Forscher haben festgestellt, dass Fehler oft Kaskaden bilden.

Der Domino-Effekt: Ein kleiner Fehler in der Zeitberechnung (z. B. „Uhrzeit falsch umgerechnet") führt dazu, dass der Assistent denkt, eine Aufgabe sei schon erledigt. Daraufhin springt er zur nächsten Aufgabe, die aber noch nicht fertig ist. Das führt zu Chaos im ganzen System.
Die „Stummen" Fehler: Oft gibt es keine rote Warnleuchte. Der Assistent macht einfach weiter, aber mit falschen Daten. Das ist wie ein Koch, der Salz statt Zucker nimmt, aber niemand merkt es, bis der Kuchen fertig ist.

5. Was sagen die Entwickler dazu? (Der Reality-Check)

Die Forscher haben 145 Entwickler befragt, die solche Systeme bauen.

Das Ergebnis: Die meisten sagten: „Ja, genau das erleben wir jeden Tag!" (Durchschnittswert 3,97 von 5).
Die Lücke: Die Entwickler meinten aber auch: „Es fehlt noch etwas bei der Zusammenarbeit mehrerer Agenten" (wenn zwei Assistenten zusammenarbeiten und sich gegenseitig verwirren) und „Wir brauchen bessere Werkzeuge, um zu sehen, was im Kopf des Assistenten vorgeht."

Fazit: Was lernen wir daraus?

Diese Studie sagt uns im Grunde: Autonome KI-Agenten sind nicht einfach nur „bessere Programme". Sie sind komplexe, hybride Systeme, die aus festem Code und unvorhersehbarem KI-Gedanken bestehen.

Das Problem: Wir versuchen, sie mit alten Werkzeugen zu debuggen (wie bei normalem Code), aber das funktioniert nicht gut, weil die KI manchmal „halluziniert".
Die Lösung: Wir brauchen neue Regeln. Wir müssen den Agenten helfen, ihre Fehler selbst zu erkennen (bessere Beobachtung), ihre Werkzeuge besser zu schützen und sicherzustellen, dass das „Gedächtnis" nicht korrupt wird.

Kurz gesagt: Wenn Sie einen autonomen KI-Assistenten bauen, denken Sie nicht nur an den Code. Denken Sie an den Jazz-Musiker, den Sie dirigieren. Er braucht klare Grenzen, eine gute Uhr und jemanden, der genau aufpasst, wenn er anfängt, Fantasie-Geschichten zu erfinden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes" auf Deutsch:

1. Problemstellung

Agente KI-Systeme (Agentic AI) kombinieren das logische Schlussfolgern von Large Language Models (LLMs) mit Werkzeugaufrufen und der Steuerung über lange Zeiträume. Diese Architektur unterscheidet sich grundlegend von traditioneller deterministischer Software und reinen Chatbot-Anwendungen.

Herausforderung: Während traditionelle Softwarefehler meist auf fehlerhaften Code zurückzuführen sind und LLM-Fehler oft auf Halluzinationen beschränkt sind, entstehen Fehler in agentenbasierten Systemen durch ein komplexes Zusammenspiel von Code, probabilistischem Modellverhalten, Zustandsverwaltung, Werkzeugorchestrierung und Umgebungsinteraktionen.
Fehlende Grundlagen: Es gibt bisher kaum empirisches Verständnis dafür, wie diese Fehler entstehen, wie sie sich über Systemkomponenten hinweg fortpflanzen und wie sie mit der Erfahrung von Entwicklern übereinstimmen. Dies behindert effektives Debugging und die Zuverlässigkeit in sicherheitskritischen Anwendungen.

2. Methodik

Die Autoren führten eine groß angelegte empirische Studie durch, die in fünf Phasen unterteilt ist:

Datensammlung: Es wurden 13.602 geschlossene Issues und gemergte Pull Requests (PRs) aus 40 aktiven Open-Source-Repositories für Agente KI-Systeme (hauptsächlich Python, z. B. LangChain, AutoGen, CrewAI) gesammelt.
Filterung und Sampling: Nach automatischer und manueller Bereinigung (unter Verwendung von GPT-4.1 zur Rauschunterdrückung) wurde ein stratifiziertes Zufallsstichprobe von 385 repräsentativen Fehlern für die Tiefenanalyse ausgewählt.
Qualitative Analyse (Grounded Theory): Die 385 Fälle wurden manuell analysiert, um Taxonomien für Fehlerarten, beobachtbare Symptome und Root Causes (Ursachen) induktiv abzuleiten.
Quantitative Analyse (Assoziationsregeln): Der Apriori-Algorithmus wurde angewendet, um statistisch signifikante Zusammenhänge zwischen Fehlerkategorien, Symptomen und Ursachen zu identifizieren (insbesondere zur Aufdeckung von Fortpflanzungsmustern).
Validierung: Eine strukturierte Entwicklerstudie mit 145 Teilnehmern (Praktikern aus Industrie und Wissenschaft) diente zur Validierung der abgeleiteten Taxonomie.

3. Schlüsselbeiträge

Das Paper liefert drei Hauptbeiträge:

Eine empirisch fundierte, hierarchische Taxonomie: Eine umfassende Klassifizierung von Fehlern, Symptomen und Ursachen, die auf fünf architektonischen Dimensionen basiert.
Analyse der Fehlerfortpflanzung: Statistisch signifikante Assoziationsregeln, die zeigen, wie Fehler durch das System wandern (z. B. von Token-Management zu Authentifizierungsfehlern).
Ökologische Validität: Eine Bestätigung durch die Entwickler-Community, dass die Taxonomie reale Probleme abdeckt.

4. Ergebnisse

A. Taxonomie der Fehler (RQ1)

Die Analyse ergab 5 architektonische Fehlerdimensionen, die in 13 Symptomklassen und 12 Root-Cause-Kategorien unterteilt sind:

Agent Cognition & Orchestration (83 Fehler): Fehler in der kognitiven Architektur, z. B. LLM-Integration (Konfiguration, API-Inkompatibilität, Token-Handling) und Agent-Lebenszyklus (Zustandsinkonsistenzen, fehlende Terminierung).
Tooling, Integration & Actuation (66 Fehler): Fehler bei der Ausführung von Plänen durch externe Werkzeuge, APIs und Ressourcen (z. B. API-Missbrauch, Verbindungsfehler, Ressourcen-Management).
Perception, Context & Memory (72 Fehler): Probleme beim Einlesen von Informationen, der Kontextspeicherung und der Interpretation von Eingaben (z. B. Speicherpersistenz, Typenbehandlung, Validierung).
Runtime & Environment Grounding (87 Fehler): Die häufigste Dimension. Fehler in der Ausführungsumgebung, Abhängigkeiten (Dependency Management) und Plattformkompatibilität.
System Reliability & Observability (67 Fehler): Fehler in der Fehlerbehandlung, UI-Darstellung und Dokumentation.

Wichtigste Root Causes:

Dependency and Integration Changes (19,5 %): Häufige Änderungen in externen Bibliotheken und APIs.
Data and Type Mismatch (17,6 %): Diskrepanz zwischen probabilistischen LLM-Ausgaben und deterministischen Datentypen.
LLM Behaviour and Interface Changes (13,1 %): Unvorhersehbare Modellausgaben und API-Änderungen.

B. Fehlerfortpflanzung (RQ2)

Durch Assoziationsregel-Mining wurden starke, oft deterministische Pfade identifiziert:

Token-Fehler: Token-Invalidierung führt fast immer zu Fehlern im lokalen Token-Refresh-Mechanismus (Lift = 181,5).
Zeitstempel: Falsche Zeitwerte stammen fast ausschließlich aus naiven Datetime-Konvertierungen (Lift = 121,0).
Zustand: Speicherbezogene Symptome deuten stark auf fehlerhafte Zustandsbehandlung hin (Lift > 30).
Kaskadierende Effekte: Fehler beginnen oft in der LLM-Ebene oder bei Abhängigkeiten und propagieren sich durch Typenfehler, falsche API-Aufrufe und schließlich zu Laufzeitabstürzen oder falschen UI-Darstellungen.

C. Validierung durch Entwickler (RQ3)

Die Taxonomie erhielt eine durchschnittliche Bewertung von 3,97 von 5 (Median 4,0) hinsichtlich ihrer praktischen Relevanz.
83,8 % der Entwickler gaben an, dass die Taxonomie Fehler abdeckt, die sie persönlich erlebt haben.
Die interne Konsistenz (Cronbachs $\alpha$ ) lag bei 0,904, was auf eine stabile und kohärente Bewertung hindeutet.
Feedback: Entwickler forderten eine stärkere Differenzierung bei semantischen Fehlern (korrekte Syntax, aber falsche Bedeutung), Multi-Agent-Koordinationsfehlern und verbesserter Observability (strukturierte Traces statt nur Logs).

5. Bedeutung und Implikationen

Das Paper zeigt, dass Fehler in Agente KI-Systemen nicht zufällig, sondern strukturiert und vorhersagbar sind.

Hybride Fehlerprofile: Die Systeme leiden unter einer Kombination aus klassischem Software-Engineering-Fehlern (Abhängigkeiten, Typen) und KI-spezifischen Problemen (Halluzinationen, Token-Limits).
Ökosystem-Fragilität: Die hohe Anzahl von Abhängigkeitsfehlern zeigt, dass Agenten-Systeme extrem anfällig für Änderungen in externen Bibliotheken sind. Es werden stabilere Abstraktionsschichten benötigt.
Observability als Design-Prinzip: Da Fehler oft stillschweigend propagieren, muss Observability (Logging, Tracing, State-Snapshots) ein primäres Designziel sein, nicht ein nachträglicher Zusatz.
Neue Debugging-Heuristiken: Die identifizierten starken Assoziationen ermöglichen die Entwicklung von automatisierten Diagnose-Tools, die basierend auf Symptomen (z. B. falsche Zeitstempel) direkt auf wahrscheinliche Ursachen (naive Datetime-Logik) schließen können.

Zusammenfassend legt diese Arbeit die empirische Grundlage für eine systematische Zuverlässigkeitsentwicklung (Reliability Engineering) und Debugging-Praktiken, die speziell auf die einzigartigen Anforderungen von Agente KI-Systemen zugeschnitten sind.