Process-Centric Analysis of Agentic Software Systems

Die Arbeit stellt Graphectory vor, ein graphenbasiertes Framework zur prozessorientierten Analyse agenter Softwaresysteme, das nicht nur tiefere Einblicke in deren reasoning-Strategien ermöglicht, sondern durch Echtzeit-Überwachung und Interventionen die Lösungsrate von SWE-bench-Problemen signifikant steigert.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beobachten zwei verschiedene Handwerker, die versuchen, ein kaputtes Fenster in einem riesigen, verworrenen Haus zu reparieren.

Bisher haben wir Handwerker nur danach bewertet, ob das Fenster am Ende wieder dicht ist (Ergebnis-orientiert). Wenn das Fenster dicht ist, war die Arbeit gut. Wenn nicht, war sie schlecht. Aber das sagt uns nichts darüber, wie sie gearbeitet haben. Hat einer davon stundenlang im falschen Raum herumgeräumt, bevor er das richtige Fenster fand? Hat der andere das Fenster repariert, aber das Glas nie auf Risse geprüft?

Diese neue Forschung von Shuyang Liu und seinem Team aus Illinois und IBM möchte genau das ändern. Sie sagen: „Schauen wir uns nicht nur das fertige Fenster an, sondern den gesamten Arbeitsweg!"

Hier ist die Erklärung der wichtigsten Ideen, einfach und mit Bildern:

1. Das Problem: Nur das Ergebnis zählt (bisher)

Bisher schauen wir auf KI-Agenten (wie SWE-agent oder OpenHands), die Programmfehler finden sollen, nur darauf, ob sie den Fehler am Ende beheben.

  • Das Problem: Ein Agent könnte den Fehler beheben, aber dabei 500 Mal denselben falschen Code lesen, sich im Kreis drehen oder wichtige Tests überspringen. Ein anderer Agent könnte es in 10 Schritten perfekt machen. Wenn beide das Fenster reparieren, sagen wir: „Beide waren gut." Das ist unfair und ineffizient.

2. Die Lösung: „Graphectory" – Der Bauplan der Gedanken

Die Forscher haben eine neue Art entwickelt, die Arbeitsschritte eines KI-Agenten aufzuzeichnen. Sie nennen es Graphectory (eine Mischung aus Graph und Trajectory, also Pfad).

  • Die Analogie: Stellen Sie sich vor, jeder Schritt, den der Handwerker macht, ist ein Punkt auf einer Landkarte.
    • Wenn er vom Werkzeugkasten zum Fenster geht, ist das eine Linie.
    • Wenn er merkt, er ist im falschen Raum und muss zurück, ist das eine rote Linie, die zurückführt.
    • Wenn er dreimal denselben Schraubenzieher benutzt, ohne Erfolg, ist das ein kleiner Kreis (eine Schleife).
  • Was es bringt: Anstatt nur eine lange Liste von Schritten zu sehen (wie ein Textbuch), sehen wir jetzt eine Landkarte. Auf dieser Karte sieht man sofort: „Oh, hier ist der Handwerker im Kreis gelaufen!" oder „Hier hat er den falschen Raum betreten und musste umkehren."

3. „Langutory" – Die Zusammenfassung in einfacher Sprache

Ein Graph kann sehr kompliziert aussehen. Um ihn für Menschen lesbar zu machen, haben sie Langutory erfunden.

  • Die Analogie: Das ist wie eine Kurzfassung des Arbeitsberichts. Anstatt jeden einzelnen Schraubenschlag zu zählen, sagt es: „Er hat erst 5 Minuten lang das Haus durchsucht (Suchen), dann 5 Minuten geschraubt (Reparieren), dann gemerkt, dass er falsch lag, und ist nochmal 1 Minute suchen gegangen, bevor er endlich getestet hat."
  • Das hilft uns zu sehen, ob der Handwerker einen klaren Plan hatte oder chaotisch herumgetüftelt ist.

4. Was haben sie herausgefunden? (Die Entdeckungen)

Sie haben 4.000 solcher „Arbeitswege" analysiert. Hier sind die wichtigsten Erkenntnisse:

  • Komplexität ist nicht immer schlecht: Stärkere KI-Modelle (die „klügeren Handwerker") machen oft mehr Schritte und suchen genauer. Das sieht auf dem Graphen komplizierter aus, führt aber oft zu besseren Ergebnissen, weil sie mehr Kontext sammeln.
  • Das Chaos der Verlierer: Wenn ein Agent scheitert, sieht seine Landkarte oft wie ein verwirrtes Spinnennetz aus. Er läuft hin und her, wiederholt Fehler und findet nie den richtigen Weg.
  • Erfolg ist nicht immer effizient: Selbst wenn ein Agent den Fehler repariert, kann er dabei extrem ineffizient gewesen sein. Er hat vielleicht 100 Schritte gemacht, wo 10 gereicht hätten. Das kostet Zeit und Geld.
  • Mustererkennung: Sie haben bestimmte „schlechte Gewohnheiten" gefunden, wie zum Beispiel:
    • Das „Rund-um-die-Wand-Laufen": Der Agent schaut sich denselben Code immer wieder an, ohne ihn zu ändern.
    • Das „Zurück-und-Vorne": Der Agent geht tief in einen Ordner, merkt, dass er falsch ist, geht zurück, geht wieder tief rein, aber in den falschen Ordner.

5. Der „Live-Tutor" (Online-Überwachung)

Das Coolste an der Arbeit ist, dass man diese Landkarte nicht erst am Ende betrachtet, sondern während der Arbeit.

  • Die Analogie: Stellen Sie sich einen Bauleiter vor, der neben dem Handwerker steht.
    • Wenn der Handwerker anfängt, im Kreis zu laufen (ineffizient), sagt der Bauleiter sofort: „Stopp! Du läufst im Kreis. Schau dir diesen Code hier an, nicht den anderen!"
    • Wenn der Handwerker versucht, das Fenster zu reparieren, ohne vorher zu messen (Planverletzung), hält der Bauleiter ihn auf: „Warte! Du hast noch nicht geprüft, ob das Glas passt."
  • Das Ergebnis: Durch diese sofortige Korrektur konnten die Forscher die Erfolgsrate der KI um bis zu 23 % steigern und die Arbeitszeit drastisch verkürzen. Die KI macht weniger Fehler, weil sie sofort korrigiert wird, bevor sie in eine Sackgasse läuft.

Fazit

Diese Forschung sagt uns: Es reicht nicht zu fragen „Hat es geklappt?". Wir müssen fragen: „Wie hat es geklappt?"

Mit Graphectory und Langutory bekommen wir eine Lupe, um zu sehen, wie KI-Agenten denken und arbeiten. Das hilft uns, sie nicht nur besser zu bewerten, sondern ihnen auch in Echtzeit zu helfen, effizienter und schlauer zu arbeiten – wie ein erfahrener Mentor, der einem Lehrling hilft, nicht im Kreis zu laufen.