From Logs to Agents: Reconstructing High-Level Creative Workflows from Low-Level Raw System Traces

Der vorgeschlagene Ansatz transformiert rohe, niedrigstufige Systemprotokolle aus Kreativwerkzeugen in strukturierte, hochstufige Verhaltensgraphen, um die Grundlage für prozessbewusste Agenten zu schaffen, die kreative Absichten verstehen und Nutzer durch kontextbezogene Vorschläge unterstützen können.

Tae Hee Jo, Kyung Hoon Hyun

Veröffentlicht Tue, 10 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar bildhaften Vergleichen:

Das Problem: Der Lärm im Maschinenraum

Stell dir vor, du bist ein Künstler, der mit einem sehr komplexen, digitalen Werkzeugkasten arbeitet (wie ComfyUI oder andere KI-Design-Tools). Du möchtest ein schönes Bild erstellen. Du klickst hier, ziehst eine Linie dort, änderst einen Text und drückst auf „Generieren".

Für dich ist das ein klarer, kreativer Gedanke: „Ich möchte das Licht etwas wärmer machen."

Aber für den Computer sieht das ganz anders aus. Hinter den Kulissen schreit der Computer vor lauter Daten:

  • „Verbindung neu geroutet!"
  • „Temporäre Datei gelöscht!"
  • „Metadaten aktualisiert!"
  • „Server-Check!"
  • „Fehlerkorrektur!"

Das ist wie wenn du in einem riesigen, lauten Maschinenraum stehst, in dem jeder Schrauber, jedes Ventil und jeder Motor ein Geräusch macht, während du nur ein Lied singen willst. Die Forscher nennen das „Rauschen" (Noise). Wenn man versucht, deine Kreativität zu verstehen, indem man sich diese Millionen von technischen Klicks und Systemmeldungen ansieht, ist das wie der Versuch, ein Kochrezept zu verstehen, indem man sich die Temperatur des Herdfeuers jede Sekunde notiert, anstatt zu schauen, was der Koch eigentlich tut.

Die Lösung: Vom Chaos zur Landkarte

Die Autoren dieses Papers (Tae Hee Jo und Kyung Hoon Hyun) haben eine Methode entwickelt, um aus diesem lauten Chaos eine klare Landkarte zu machen. Sie nennen das „Von Logs zu Agenten".

Stell dir ihren Prozess wie einen Übersetzer vor, der drei Schritte macht:

  1. Der Filter (Das Sieb):
    Zuerst nehmen sie den riesigen Datenhaufen und schütteln ihn durch ein Sieb. Alles, was nur der Computer macht (wie Aufräumen oder Verbinden), wird herausgefiltert. Was übrig bleibt, sind nur die echten Entscheidungen des Künstlers: „Neues Bild eingefügt", „Text geändert", „Bild generiert" oder „Alles gelöscht".

    • Vergleich: Es ist, als würde man in einem vollen Einkaufswagen nur die Lebensmittel behalten und den Kassenbon, die Tüte und den Einkaufswagen selbst wegwerfen.
  2. Die Landkarte (Der Baum):
    Kreativität ist selten geradeaus. Man probiert etwas aus, verwirft es, geht einen Schritt zurück und versucht einen anderen Weg. Die Forscher bauen aus den verbleibenden Entscheidungen einen Baum (ein Diagramm).

    • Der Stamm ist der Anfang.
    • Die Äste sind die verschiedenen Wege, die du gegangen bist.
    • Die Blätter sind die Endergebnisse.
      So sieht man sofort: „Ah, hier hat die Person viel experimentiert (viele Äste), und hier hat sie sich festgelegt (ein langer Ast)."
  3. Die Sprache (Die Wörter):
    Schließlich übersetzen sie diese Landkarte in eine einfache Sprache, die auch eine KI verstehen kann. Statt komplizierter Code-Befehle sagen sie einfach: „Hinzufügen", „Ändern", „Generieren".

    • Vergleich: Statt zu sagen „Ich habe den Schalter X gedrückt, der den Motor Y angesteuert hat", sagen wir einfach: „Ich habe den Motor gestartet."

Warum ist das wichtig? (Der „Prozess-bewusste" Assistent)

Das ist der spannendste Teil. Bisher waren KI-Assistenten wie blinde Passagiere. Sie sahen nur, wo du gerade stehst (das aktuelle Bild), aber sie wussten nicht, wie du dorthin gekommen bist.

Mit dieser neuen Methode wird der Assistent zu einem erfahrenen Reisebegleiter:

  • Der alte Assistent: Du hast ein Bild generiert, es nicht gemocht und ein neues generiert. Der Assistent fragt: „Was soll ich tun?"
  • Der neue, „prozess-bewusste" Assistent: Er sieht deine Landkarte. Er erkennt: „Aha, du hast in den letzten 5 Minuten fünfmal versucht, das Licht zu ändern, aber jedes Mal das Bild neu generiert, statt den Text anzupassen. Das funktioniert bei dir selten."

Er könnte dann sagen: „Hey, ich sehe, du versuchst das Licht zu ändern. Bei früheren Versuchen hat es besser funktioniert, wenn du den Text-Prompt anpasst, statt das Bild neu zu generieren. Soll ich das für dich versuchen?"

Zusammenfassung

Die Forscher haben also eine Brücke gebaut. Sie nehmen die rohen, unverständlichen Daten, die Computer aufzeichnen, und verwandeln sie in eine Geschichte deiner kreativen Reise.

Dadurch können zukünftige KI-Tools nicht nur Befehle ausführen, sondern mitdenken. Sie verstehen nicht nur was du tust, sondern warum du es tust und wohin deine Reise führt. Das macht sie von bloßen Werkzeugen zu echten kreativen Partnern.