Process-Centric Analysis of Agentic Software Systems

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beobachten zwei verschiedene Handwerker, die versuchen, ein kaputtes Fenster in einem riesigen, verworrenen Haus zu reparieren.

Bisher haben wir Handwerker nur danach bewertet, ob das Fenster am Ende wieder dicht ist (Ergebnis-orientiert). Wenn das Fenster dicht ist, war die Arbeit gut. Wenn nicht, war sie schlecht. Aber das sagt uns nichts darüber, wie sie gearbeitet haben. Hat einer davon stundenlang im falschen Raum herumgeräumt, bevor er das richtige Fenster fand? Hat der andere das Fenster repariert, aber das Glas nie auf Risse geprüft?

Diese neue Forschung von Shuyang Liu und seinem Team aus Illinois und IBM möchte genau das ändern. Sie sagen: „Schauen wir uns nicht nur das fertige Fenster an, sondern den gesamten Arbeitsweg!"

Hier ist die Erklärung der wichtigsten Ideen, einfach und mit Bildern:

1. Das Problem: Nur das Ergebnis zählt (bisher)

Bisher schauen wir auf KI-Agenten (wie SWE-agent oder OpenHands), die Programmfehler finden sollen, nur darauf, ob sie den Fehler am Ende beheben.

Das Problem: Ein Agent könnte den Fehler beheben, aber dabei 500 Mal denselben falschen Code lesen, sich im Kreis drehen oder wichtige Tests überspringen. Ein anderer Agent könnte es in 10 Schritten perfekt machen. Wenn beide das Fenster reparieren, sagen wir: „Beide waren gut." Das ist unfair und ineffizient.

2. Die Lösung: „Graphectory" – Der Bauplan der Gedanken

Die Forscher haben eine neue Art entwickelt, die Arbeitsschritte eines KI-Agenten aufzuzeichnen. Sie nennen es Graphectory (eine Mischung aus Graph und Trajectory, also Pfad).

Die Analogie: Stellen Sie sich vor, jeder Schritt, den der Handwerker macht, ist ein Punkt auf einer Landkarte.
- Wenn er vom Werkzeugkasten zum Fenster geht, ist das eine Linie.
- Wenn er merkt, er ist im falschen Raum und muss zurück, ist das eine rote Linie, die zurückführt.
- Wenn er dreimal denselben Schraubenzieher benutzt, ohne Erfolg, ist das ein kleiner Kreis (eine Schleife).
Was es bringt: Anstatt nur eine lange Liste von Schritten zu sehen (wie ein Textbuch), sehen wir jetzt eine Landkarte. Auf dieser Karte sieht man sofort: „Oh, hier ist der Handwerker im Kreis gelaufen!" oder „Hier hat er den falschen Raum betreten und musste umkehren."

3. „Langutory" – Die Zusammenfassung in einfacher Sprache

Ein Graph kann sehr kompliziert aussehen. Um ihn für Menschen lesbar zu machen, haben sie Langutory erfunden.

Die Analogie: Das ist wie eine Kurzfassung des Arbeitsberichts. Anstatt jeden einzelnen Schraubenschlag zu zählen, sagt es: „Er hat erst 5 Minuten lang das Haus durchsucht (Suchen), dann 5 Minuten geschraubt (Reparieren), dann gemerkt, dass er falsch lag, und ist nochmal 1 Minute suchen gegangen, bevor er endlich getestet hat."
Das hilft uns zu sehen, ob der Handwerker einen klaren Plan hatte oder chaotisch herumgetüftelt ist.

4. Was haben sie herausgefunden? (Die Entdeckungen)

Sie haben 4.000 solcher „Arbeitswege" analysiert. Hier sind die wichtigsten Erkenntnisse:

Komplexität ist nicht immer schlecht: Stärkere KI-Modelle (die „klügeren Handwerker") machen oft mehr Schritte und suchen genauer. Das sieht auf dem Graphen komplizierter aus, führt aber oft zu besseren Ergebnissen, weil sie mehr Kontext sammeln.
Das Chaos der Verlierer: Wenn ein Agent scheitert, sieht seine Landkarte oft wie ein verwirrtes Spinnennetz aus. Er läuft hin und her, wiederholt Fehler und findet nie den richtigen Weg.
Erfolg ist nicht immer effizient: Selbst wenn ein Agent den Fehler repariert, kann er dabei extrem ineffizient gewesen sein. Er hat vielleicht 100 Schritte gemacht, wo 10 gereicht hätten. Das kostet Zeit und Geld.
Mustererkennung: Sie haben bestimmte „schlechte Gewohnheiten" gefunden, wie zum Beispiel:
- Das „Rund-um-die-Wand-Laufen": Der Agent schaut sich denselben Code immer wieder an, ohne ihn zu ändern.
- Das „Zurück-und-Vorne": Der Agent geht tief in einen Ordner, merkt, dass er falsch ist, geht zurück, geht wieder tief rein, aber in den falschen Ordner.

5. Der „Live-Tutor" (Online-Überwachung)

Das Coolste an der Arbeit ist, dass man diese Landkarte nicht erst am Ende betrachtet, sondern während der Arbeit.

Die Analogie: Stellen Sie sich einen Bauleiter vor, der neben dem Handwerker steht.
- Wenn der Handwerker anfängt, im Kreis zu laufen (ineffizient), sagt der Bauleiter sofort: „Stopp! Du läufst im Kreis. Schau dir diesen Code hier an, nicht den anderen!"
- Wenn der Handwerker versucht, das Fenster zu reparieren, ohne vorher zu messen (Planverletzung), hält der Bauleiter ihn auf: „Warte! Du hast noch nicht geprüft, ob das Glas passt."
Das Ergebnis: Durch diese sofortige Korrektur konnten die Forscher die Erfolgsrate der KI um bis zu 23 % steigern und die Arbeitszeit drastisch verkürzen. Die KI macht weniger Fehler, weil sie sofort korrigiert wird, bevor sie in eine Sackgasse läuft.

Fazit

Diese Forschung sagt uns: Es reicht nicht zu fragen „Hat es geklappt?". Wir müssen fragen: „Wie hat es geklappt?"

Mit Graphectory und Langutory bekommen wir eine Lupe, um zu sehen, wie KI-Agenten denken und arbeiten. Das hilft uns, sie nicht nur besser zu bewerten, sondern ihnen auch in Echtzeit zu helfen, effizienter und schlauer zu arbeiten – wie ein erfahrener Mentor, der einem Lehrling hilft, nicht im Kreis zu laufen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Process-Centric Analysis of Agentic Software Systems" auf Deutsch:

Problemstellung

Agente Systeme, die auf Large Language Models (LLMs) basieren, werden zunehmend zur autonomen Lösung komplexer Softwareentwicklungsprobleme eingesetzt. Die aktuelle Evaluierung dieser Systeme ist jedoch fast ausschließlich ergebnisorientiert (outcome-centric): Der Erfolg wird allein daran gemessen, ob das Agenten-System ein Problem am Ende erfolgreich gelöst hat (z. B. durch einen korrekten Patch).

Dieser Ansatz ignoriert die Prozessebene: Er liefert keine Einblicke in die Zwischenschritte, die Denkweise, die Planungsstrategien oder die Effizienz des Agenten. Ein erfolgreicher Agent könnte durch Zufall oder ineffiziente, redundante Handlungen (wie endlose Schleifen oder unnötige Rückwärtsbewegungen) zum Ziel gelangt sein, während ein gescheiterter Agent möglicherweise eine vielversprechende, aber unterbrochene Strategie verfolgte. Es fehlt an einer systematischen, skalierbaren Methode, um die Trajektorien (die zeitliche Abfolge von Aktionen, Beobachtungen und Überlegungen) von Agenten zu analysieren, um Ineffizienzen und strategische Fehler zu identifizieren.

Methodik: Graphectory und Langutory

Die Autoren stellen zwei zentrale Konzepte vor, um Agente-Trajektorien strukturell zu erfassen und zu analysieren:

Graphectory (Graph + Trajectory):
- Dies ist eine zyklische, gerichtete Graph-Darstellung der Agenten-Aktionen.
- Knoten: Repräsentieren einzelne Aktionen des Agenten (z. B. Dateianzeigen, Code-Änderungen, Testläufe).
- Kanten: Es gibt zwei Arten von Kanten:
  - Temporale Kanten (TE): Verbinden Aktionen in der chronologischen Reihenfolge.
  - Strukturelle Kanten (SE): Verbinden Aktionen, die auf hierarchisch übergeordneten oder untergeordneten Entitäten operieren (z. B. Verzeichnis $\to$ Datei $\to$ Codeblock). Dies erfasst die Navigation im Problemraum.
- Phasen-Labeling: Knoten werden automatisch logischen Phasen zugeordnet: Localization (Fehlerlokalisierung), Patching (Code-Änderung), Validation (Validierung) und General. Dies ermöglicht die Analyse des Workflows unabhängig von spezifischen Tools.
Langutory (Language + Trajectory):
- Eine abstrahierte, für Menschen lesbare Darstellung des Graphectory.
- Sie komprimiert die Sequenz der Phasen (z. B. $L_5 P_5 L P V$ ) unter Verwendung von Run-Length-Encoding.
- Dies erlaubt den schnellen Vergleich von Strategiemustern zwischen verschiedenen Agenten, Modellen und Problemen.

Metriken und Analysen:
Auf Basis dieser Strukturen wurden prozessorientierte Metriken definiert (z. B. Knotenanzahl, Schleifenzahl, durchschnittliche Schleifenlänge, Navigationsbreite). Zudem wurden Analyseverfahren entwickelt:

Phasenfluss-Analyse: Untersucht Übergänge zwischen Phasen (z. B. Rückwärtsbewegungen oder strategische Abkürzungen).
Mustererkennung: Identifiziert bekannte Ineffizienz-Muster (Anti-Patterns) wie wiederholtes Anzeigen derselben Datei, unnötiges Scrollen oder fehlgeschlagene Editierungen.
Online-Monitoring: Graphectory und Langutory können während der Ausführung des Agenten inkrementell aufgebaut werden, um Probleme in Echtzeit zu erkennen.

Wichtige Beiträge

Neue Datenstrukturen: Einführung von Graphectory und Langutory als standardisierte, graphbasierte Repräsentation für Agente-Trajektorien.
Prozessorientierte Metriken: Definition quantitativer Maße zur Bewertung der Komplexität und Effizienz von Agenten-Workflows.
Systematische Analyse: Eine umfassende Studie von 4.000 Trajektorien (500 SWE-Bench Verified Issues $\times$ 8 Kombinationen aus Agenten und LLMs), die zeigt, wie sich Strategien je nach Schwierigkeitsgrad und Modellstärke unterscheiden.
Echtzeit-Intervention: Entwicklung eines Systems, das während der Ausführung Ineffizienzen erkennt, dem Agenten diagnostische Nachrichten sendet und bei Bedarf Aktionen zurücknimmt (Rollback), um den Agenten zu korrigieren.
Öffentliche Datensätze: Bereitstellung von Graphectory-Daten und Roh-Trajektorien für die Forschungsgemeinschaft.

Ergebnisse

Die Analyse der 4.000 Trajektorien ergab folgende Schlüsselerkenntnisse:

Unterscheidung von Erfolg und Misserfolg: Unlöste Probleme weisen signifikant komplexere Graphectories auf, mit mehr Schleifen (Wiederholungen) und ineffizienten Mustern als gelöste Probleme.
Einfluss der Schwierigkeit: Mit steigender menschlicher Einschätzung der Problemschwierigkeit werden die Trajektorien der Agenten komplexer (mehr Exploration, häufigere Strategiewechsel).
Modellstärke vs. Effizienz: Stärkere Modelle (z. B. Claude Sonnet 4) erzeugen komplexere Graphen mit breiterer Exploration und mehr Validierungsschritten, was zu höheren Erfolgsraten führt, aber auch ineffizientere Prozesse aufweisen kann. Schwächere Modelle neigen zu kürzeren, aber oft unvollständigen Pfaden.
Anti-Patterns: Es wurden spezifische Ineffizienz-Muster identifiziert, wie z. B. RepeatedView (wiederholtes Anzeigen derselben Datei), ZoomOut (unnötiges Zurückgehen in der Verzeichnisstruktur) und StrNotFound (Editierversuche mit nicht existierenden Strings). Diese Muster treten auch bei erfolgreichen Runs auf, sind aber bei gescheiterten Runs gehäuft.
Wirksamkeit der Online-Intervention:
- Durch das Echtzeit-Monitoring und die Intervention konnte die Lösungsrate bei problematischen Instanzen um 6,9 % bis 23,5 % gesteigert werden.
- Die Anzahl der Trajektorien-Schritte wurde signifikant reduziert (kürzere Laufzeiten).
- Das Auftreten von Oszillationen (endlosen Schleifen) konnte um über 90 % reduziert werden.
- Der Overhead für das Monitoring beträgt weniger als 10 Milliseconds pro Schritt.

Bedeutung und Ausblick

Das Paper markiert einen Paradigmenwechsel in der Evaluierung von Agente-Systemen: weg von reinen Erfolgsmetriken hin zu einer tiefgehenden Prozessanalyse.

Für die Forschung: Graphectory bietet eine gemeinsame Sprache und Datenstruktur, um das Verhalten von Agenten systematisch zu vergleichen und neue Hypothesen über deren „Denkweise" zu testen.
Für die Praxis: Die Fähigkeit, Ineffizienzen in Echtzeit zu erkennen und zu korrigieren, zeigt, dass Agenten-Systeme nicht nur passiv beobachtet, sondern aktiv gesteuert werden können, um Ressourcen zu sparen und die Erfolgsquote zu erhöhen.
Zukunft: Die Autoren schlagen vor, diese Erkenntnisse zu nutzen, um Werkzeuge für symbolische Navigation, AST-basiertes Editieren und kontextbewusste Retrieval-Mechanismen zu entwickeln, um die identifizierten Ineffizienzen (wie das „Raten" bei Code-Änderungen) zu eliminieren.

Zusammenfassend demonstriert die Arbeit, dass das Verständnis des Weges zum Ziel genauso wichtig ist wie das Ziel selbst, um robuste und effiziente Software-Agenten zu entwickeln.

Process-Centric Analysis of Agentic Software Systems

1. Das Problem: Nur das Ergebnis zählt (bisher)

2. Die Lösung: „Graphectory" – Der Bauplan der Gedanken

3. „Langutory" – Die Zusammenfassung in einfacher Sprache

4. Was haben sie herausgefunden? (Die Entdeckungen)

5. Der „Live-Tutor" (Online-Überwachung)

Fazit

Problemstellung

Methodik: Graphectory und Langutory

Wichtige Beiträge

Ergebnisse

Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance