Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Diese Studie charakterisiert Fehler in agenter KI durch eine empirische Analyse von über 13.000 Issues aus Open-Source-Projekten, die zur Entwicklung einer validierten Taxonomie von 37 Fehlertypen, deren Symptomen und Ursachen führt und dabei häufige Fehlermuster wie die Diskrepanz zwischen probabilistischen LLM-Ausgaben und deterministischen Schnittstellen aufdeckt.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse Khomh

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Agentic AI-System (ein autonomer KI-Agent) ist wie ein hochintelligenter, aber manchmal etwas chaotischer Assistent, den Sie eingestellt haben, um komplexe Aufgaben für Sie zu erledigen.

Im Gegensatz zu einem normalen Computerprogramm, das strikt Befehle ausführt („Wenn X, dann Y"), oder einem einfachen Chatbot, der nur redet, handelt dieser Assistent. Er plant Schritte, nutzt Werkzeuge (wie eine Taschenrechner-App oder eine E-Mail-Funktion), merkt sich Dinge und passt sich an.

Das Problem? Weil er so viel Freiheit hat, gehen Dinge schief – und zwar auf eine Weise, die für Software-Entwickler völlig neu ist. Diese Forscher haben sich genau diese Fehler angesehen, um zu verstehen, warum der Assistent manchmal „verrückt spielt".

Hier ist die einfache Erklärung der Studie, mit ein paar anschaulichen Vergleichen:

1. Das große Problem: Der Assistent ist ein Hybrid

Stellen Sie sich den Agenten als ein Orchester vor, in dem zwei völlig unterschiedliche Musiker spielen:

  • Musiker A (Der klassische Code): Ein strenger Dirigent, der alles genau nach Partitur macht. Wenn er einen Fehler macht, ist es ein klarer Notenfehler.
  • Musiker B (Die KI/LLM): Ein Jazz-Musiker, der improvisiert. Er ist kreativ, aber manchmal halluziniert er Noten, die es gar nicht gibt, oder vergisst den Takt.

Wenn diese beiden zusammenarbeiten, entstehen Fehler, die es in der normalen Software-Welt so nicht gibt. Der Dirigent (Code) versucht, den Jazz-Musiker (KI) zu steuern, aber manchmal versteht der Jazz-Musiker die Anweisungen falsch, oder der Dirigent vergisst, dass der Jazz-Musiker müde wird (Token-Limits).

2. Was haben die Forscher getan? (Die Detektivarbeit)

Die Forscher haben sich wie Privatdetektive verhalten.

  • Sie haben 13.602 Fehlerberichte aus 40 verschiedenen Projekten gesammelt. Das ist wie das Durchsuchen von Tausenden von Beschwerdebriefen von Kunden, die ihren Assistenten genutzt haben.
  • Davon haben sie 385 besonders interessante Fälle herausgepickt und genau untersucht.
  • Sie haben ein Katalog-System (Taxonomie) erstellt, um diese Fehler zu sortieren. Statt zu sagen „Es ist kaputt", sagen sie jetzt: „Es ist ein Fehler im Gedächtnis des Assistenten" oder „Er hat das Werkzeug falsch benutzt".

3. Die drei Hauptkategorien der Fehler

Die Forscher haben die Fehler in drei Gruppen eingeteilt, die man sich wie die Körperbereiche des Assistenten vorstellen kann:

A. Das Gehirn (Kognition & Steuerung)

Hier passiert es, wenn der Assistent nicht weiß, was er tun soll.

  • Beispiel: Er denkt, er soll eine E-Mail schreiben, aber er verwechselt den Absender. Oder er gerät in eine Endlosschleife („Ich muss das prüfen... ich muss das prüfen..."), weil er nie aufhört.
  • Vergleich: Wie ein Navigator, der sagt: „Fahren Sie nach links", aber Sie fahren in eine Sackgasse, weil die Karte veraltet ist.

B. Die Hände (Werkzeuge & Aktionen)

Hier scheitert der Assistent daran, Dinge in der echten Welt zu tun.

  • Beispiel: Er versucht, eine Datei zu speichern, aber der Ordner existiert nicht. Oder er vergisst sein Passwort für einen Dienst.
  • Vergleich: Wie ein Koch, der ein Rezept perfekt versteht, aber die Pfanne ist zu klein oder der Herd ist aus.

C. Die Füße (Laufumgebung & Abhängigkeiten)

Das sind die Probleme mit dem Boden, auf dem der Assistent steht.

  • Beispiel: Die Software, die er braucht, ist veraltet oder passt nicht zum Betriebssystem.
  • Vergleich: Wie ein Läufer, der zwar fit ist, aber auf einem Weg läuft, der gerade umgebaut wird (Fehlende Bibliotheken, falsche Versionen).

4. Die Entdeckung: Fehler sind ansteckend (Propagation)

Das Spannendste an der Studie ist, wie Fehler sich ausbreiten. Die Forscher haben festgestellt, dass Fehler oft Kaskaden bilden.

  • Der Domino-Effekt: Ein kleiner Fehler in der Zeitberechnung (z. B. „Uhrzeit falsch umgerechnet") führt dazu, dass der Assistent denkt, eine Aufgabe sei schon erledigt. Daraufhin springt er zur nächsten Aufgabe, die aber noch nicht fertig ist. Das führt zu Chaos im ganzen System.
  • Die „Stummen" Fehler: Oft gibt es keine rote Warnleuchte. Der Assistent macht einfach weiter, aber mit falschen Daten. Das ist wie ein Koch, der Salz statt Zucker nimmt, aber niemand merkt es, bis der Kuchen fertig ist.

5. Was sagen die Entwickler dazu? (Der Reality-Check)

Die Forscher haben 145 Entwickler befragt, die solche Systeme bauen.

  • Das Ergebnis: Die meisten sagten: „Ja, genau das erleben wir jeden Tag!" (Durchschnittswert 3,97 von 5).
  • Die Lücke: Die Entwickler meinten aber auch: „Es fehlt noch etwas bei der Zusammenarbeit mehrerer Agenten" (wenn zwei Assistenten zusammenarbeiten und sich gegenseitig verwirren) und „Wir brauchen bessere Werkzeuge, um zu sehen, was im Kopf des Assistenten vorgeht."

Fazit: Was lernen wir daraus?

Diese Studie sagt uns im Grunde: Autonome KI-Agenten sind nicht einfach nur „bessere Programme". Sie sind komplexe, hybride Systeme, die aus festem Code und unvorhersehbarem KI-Gedanken bestehen.

  • Das Problem: Wir versuchen, sie mit alten Werkzeugen zu debuggen (wie bei normalem Code), aber das funktioniert nicht gut, weil die KI manchmal „halluziniert".
  • Die Lösung: Wir brauchen neue Regeln. Wir müssen den Agenten helfen, ihre Fehler selbst zu erkennen (bessere Beobachtung), ihre Werkzeuge besser zu schützen und sicherzustellen, dass das „Gedächtnis" nicht korrupt wird.

Kurz gesagt: Wenn Sie einen autonomen KI-Assistenten bauen, denken Sie nicht nur an den Code. Denken Sie an den Jazz-Musiker, den Sie dirigieren. Er braucht klare Grenzen, eine gute Uhr und jemanden, der genau aufpasst, wenn er anfängt, Fantasie-Geschichten zu erfinden.