AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr intelligenten, aber noch etwas unerfahrenen Roboter beibringen, wie man einen echten Computer benutzt – also nicht nur im Internet surfen, sondern Programme öffnen, Dateien speichern, Tabellenkalkulationen erstellen und zwischen verschiedenen Fenstern hin und her springen.

Das Problem ist: Um einen Roboter so zu trainieren, braucht man unzählige Beispiele. Früher mussten Menschen stundenlang vor dem Bildschirm sitzen und jeden Klick aufzeichnen. Das ist teuer, langsam und kaum skalierbar.

Hier kommt AgentSynth ins Spiel. Die Forscher von der UC Berkeley haben eine Art „Roboter-Schule" entwickelt, die sich selbstständig Aufgaben ausdenkt und löst, um den Roboter zu trainieren.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Geheimnis: Der Unterschied zwischen „Bauen" und „Planen"

Das Herzstück von AgentSynth ist ein cleverer Trick, den die Autoren Informationsasymmetrie nennen.

Der Vergleich: Stell dir vor, du musst ein riesiges Puzzle zusammenlegen.
- Der schwierige Weg: Jemand gibt dir ein fertiges Bild und sagt: „Bastel das jetzt nach!" Das ist schwer, weil du den ganzen Plan im Kopf behalten musst.
- Der AgentSynth-Weg: Jemand gibt dir die Puzzleteile einzeln und sagt: „Leg erst das rote Teil hierhin. Jetzt das blaue daneben." Das ist für den Roboter leicht zu tun. Aber am Ende sagt er: „Ah, ich habe ein riesiges Puzzle gebaut!"

AgentSynth nutzt diesen Trick. Es baut keine riesigen, komplizierten Aufgaben auf einmal. Stattdessen baut es viele kleine, einfache Schritte (Subtasks) hintereinander. Ein Schritt ist leicht (z. B. „Öffne den Browser"). Der nächste ist auch leicht (z. B. „Suche nach 'Wetter'"). Aber wenn man 10 dieser leichten Schritte zu einer Aufgabe zusammenfasst, wird es plötzlich sehr schwer für den Roboter, den Überblick zu behalten.

2. Die Baumaschine: Sechs Roboter-Arbeiter

Um diese Aufgaben zu erstellen, nutzen die Forscher ein Team aus sechs verschiedenen KI-Agenten, die wie eine gut organisierte Baustelle zusammenarbeiten:

Der Architekt (Task Proposer): Er denkt sich eine kleine, harmlose Aufgabe aus, passend zu einer fiktiven Person (z. B. „Ein Student, der nach seinem Abschlussdatum sucht").
Der Baumeister (Task Executor): Er führt die Aufgabe aus. Er klickt, tippt und scrollt genau wie ein Mensch.
Der Kontrolleur (Task Verifier): Er schaut sich an, ob der Baumeister die Aufgabe richtig gemacht hat. Wenn etwas schiefgelaufen ist, sagt er: „Nein, das war falsch."
Der Korrektor (Task Reviser): Wenn etwas schiefging, schreibt er die Aufgabe um, sodass sie genau das beschreibt, was der Roboter tatsächlich geschafft hat.
Der Nachfolger (Follow-up Proposer): Sobald eine kleine Aufgabe erledigt ist, denkt er sich die nächste kleine Aufgabe aus, die darauf aufbaut.
Der Zusammenfasser (Task Summarizer): Am Ende nimmt er alle kleinen Schritte und fasst sie zu einer großen, komplexen Aufgabe zusammen.

3. Das Ergebnis: Ein riesiges Trainingslager

Durch diesen Prozess haben die Forscher über 6.000 verschiedene Aufgaben erstellt.

Die Vielfalt: Die Aufgaben decken alles ab: von Office-Programmen über Web-Surfen bis hin zu Programmieren.
Der Preis: Das ist der wahre Durchbruch. Eine menschliche Aufgabe zu erstellen kostet zwischen 4 und 425 Dollar. AgentSynth schafft eine Aufgabe für nur 60 Cent. Das ist wie der Unterschied zwischen einem teuren Handwerker und einem 3D-Drucker.

4. Der Test: Wie gut sind die Roboter wirklich?

Die Forscher haben die besten aktuellen KI-Modelle (wie GPT-4 oder Claude) auf diesen neuen Aufgaben getestet. Das Ergebnis war ernüchternd, aber wichtig:

Bei sehr einfachen Aufgaben (Level 1) schafften die Roboter es noch zu 18 %.
Bei schwierigen Aufgaben (Level 6), die viele Schritte und viel Gedächtnis erfordern, fiel die Erfolgsrate auf nur noch 4 %.

Die Analogie: Es ist, als würdest du einem Schüler eine einfache Matheaufgabe geben (2+2). Das kann er. Aber wenn du ihm eine Aufgabe gibst, bei der er erst eine Formel suchen, dann eine Tabelle erstellen, dann die Zahlen eintragen und am Ende ein Diagramm zeichnen muss, dann scheitert er. Die KI kann „sehen" und „denken", aber sie verliert schnell den Faden, wenn die Kette zu lang wird.

Warum ist das wichtig?

AgentSynth ist wie ein unerschöpflicher Trainer.

Es zeigt uns genau, wo die aktuellen KIs noch Schwächen haben (nämlich bei langen, komplexen Abläufen).
Es ist so billig, dass wir in Zukunft Millionen von Aufgaben generieren können, um die KIs wirklich „smart" im Umgang mit Computern zu machen.

Kurz gesagt: AgentSynth hat einen Weg gefunden, wie man einem Roboter beibringt, einen ganzen Tag lang am Computer zu arbeiten, indem man ihm erst nur die einzelnen Schritte zeigt und ihn dann langsam an die komplexen Aufgaben herantastet – und das alles für einen Bruchteil der Kosten, die früher nötig waren.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Entwicklung von Generalisten-Agenten, die komplexe, mehrstufige Aufgaben in Desktop-Umgebungen (Computer-Nutzung) lösen können, leidet unter dem Mangel an hochwertigen, skalierbaren Datensätzen. Bestehende Benchmarks wie OSWorld, WorkArena oder τ-bench basieren stark auf manuellen Demonstrationen durch menschliche Annotatoren. Dieser Ansatz ist jedoch:

Nicht skalierbar: Die manuelle Erstellung von Aufgaben und Trajektorien ist extrem arbeitsintensiv und teuer.
Eingeschränkt in der Vielfalt: Die Abdeckung realer Szenarien ist begrenzt, was zu Überanpassung (Overfitting) oder Modellkollaps während des Trainings führen kann.
Schwierig für komplexe Aufgaben: Bestehende synthetische Methoden scheitern oft daran, zuverlässige Trajektorien für langfristige (long-horizon) Aufgaben zu generieren, da die Generierung eines gesamten Lösungswegs auf einmal für LLMs zu komplex ist.

Methodik: AgentSynth Pipeline

Das Paper stellt AgentSynth vor, eine vollständig automatisierte Pipeline zur Synthese von hochwertigen Aufgaben- und Trajektoriendatensätzen. Das Kernkonzept nutzt Informationsasymmetrie: Es ist für ein Modell einfacher, eine Aufgabe schrittweise (vorwärts) zu lösen, als die gesamte Lösung im Voraus zu planen.

Die Pipeline besteht aus sechs spezialisierten LLM-Agenten und läuft in der OSWorld-Umgebung (einer simulierten Desktop-Umgebung):

Task Proposer (Aufgaben-Vorschläger): Generiert basierend auf einer zufälligen „Persona" (Nutzerprofil) eine einfache, initiale Aufgabe, die in wenigen atomaren Schritten lösbar ist.
Task Executor (Ausführer): Führt die Aufgabe aus. Er nutzt ein Zwei-Stufen-Setup: Ein Planer (GPT-4.1) analysiert den Kontext und plant den nächsten Schritt, während ein Computer-Use-Modell die genauen Pixel-Koordinaten für Klicks oder Eingaben bestimmt.
Task Verifier (Verifizierer): Prüft, ob die Aufgabe erfolgreich abgeschlossen wurde. Er nutzt eine selektive Screenshot-Analyse (ähnlich WebJudge), um Token-Kosten zu sparen und die Genauigkeit zu erhöhen. Bei Fehlern wird ein Erfolgswert (0–100 %) ausgegeben.
Task Reviser (Revidierer): Wenn eine Aufgabe nur teilweise erfolgreich war, passt dieser Agent die Aufgabenbeschreibung so an, dass sie den tatsächlich erreichten Fortschritt widerspiegelt.
Follow-up Task Proposer: Generiert basierend auf dem aktuellen Zustand und der Historie eine neue, logisch folgende Teilaufgabe. Dieser Prozess wird iterativ wiederholt, um eine Kette von Subtasks zu bilden.
Task Summarizer (Zusammenfasser): Fügt die Sequenz der erfolgreichen Subtasks zu einer einzigen, komplexen Langzeit-Aufgabe zusammen.

Steuerung der Schwierigkeit: Die Schwierigkeitsstufe einer Aufgabe wird durch die Anzahl der zusammengefassten Subtasks definiert (Level 1 = 1 Subtask, Level 6 = 6 Subtasks). Dies ermöglicht eine feingranulare Kontrolle über die Komplexität, ohne die Generierbarkeit zu beeinträchtigen.

Hauptbeiträge

Skalierbare Pipeline: AgentSynth generiert über 6.000 diverse und realistische Aufgaben für Computer-Nutzung. Die Kosten liegen bei nur **0,60 $pro Trajektorie**, was um Größenordnungen günstiger ist als menschliche Annotationen (z. B. 34–425$ pro Aufgabe bei TheAgentCompany).
Informationsasymmetrie als Kernprinzip: Durch das Aufbrechen komplexer Aufgaben in lösbare Teilschritte wird die Zuverlässigkeit der Trajektorien-Generierung maximiert, während die resultierenden zusammengesetzten Aufgaben für Test-Agenten extrem schwierig bleiben.
Neuer Benchmark: Die Autoren stellen einen Benchmark vor, der zeigt, dass selbst State-of-the-Art-Modelle bei komplexen, mehrstufigen Desktop-Aufgaben versagen.
Vielfalt und Realismus: Die Aufgaben decken verschiedene Domänen ab (Büro, Recherche, Coding, Forschung) und erfordern oft die Interaktion mit mehreren Softwareanwendungen gleichzeitig (über 60 % der Trajektorien nutzen ≥2 Apps).

Ergebnisse und Evaluation

Die Evaluation wurde mit mehreren State-of-the-Art-Modellen (o4-mini, GPT-4.1, Gemini-2.5-pro, Claude-3.7-Sonnet) durchgeführt:

Leistungsabfall mit steigender Schwierigkeit: Es zeigt sich ein drastischer Rückgang der Erfolgsrate. Während Modelle bei Level 1 (einfach) noch eine Erfolgsrate von ca. 18 % (o4-mini) erreichen, sinkt diese bei Level 6 (sehr komplex) auf unter 4 %.
Menschlicher Vergleich: Menschen erreichen selbst bei den schwierigsten Aufgaben (Level 6) eine Erfolgsrate von 70 %, was die große Lücke zwischen aktuellen KI-Agenten und menschlicher Kompetenz unterstreicht.
Fehlermodi: Häufige Fehler sind ungenaue Mausklicks, mangelndes Verständnis von Screenshots (z. B. Verwechseln von Pop-ups), fehlende Zustandserkennung (State Tracking) und die Unfähigkeit, sich von Fehlern zu erholen (keine Selbstkorrektur).
Robustheit: Die Ergebnisse bleiben konsistent, unabhängig davon, welches Basismodell (GPT-4.1 bis GPT-5.1) zur Generierung der Daten verwendet wurde. Auch die Anwendung der Pipeline auf Web-Agenten (InSTA-Umgebung) bestätigte die Wirksamkeit des Ansatzes.

Bedeutung und Ausblick

AgentSynth adressiert ein kritisches Hindernis in der Forschung zu Computer-Nutzungs-Agenten: die Verfügbarkeit von skalierbaren, hochwertigen Trainingsdaten.

Benchmark-Potenzial: Der Benchmark fungiert als strenger Filter, der die aktuellen Grenzen von LLMs in visuell fundierten, langfristigen Planungsaufgaben aufzeigt.
Kosteneffizienz: Die Möglichkeit, tausende Aufgaben für einen Bruchteil der Kosten menschlicher Annotationen zu generieren, ermöglicht das Training und die Feinabstimmung von Modellen in bisher unerreichten Maßstäben.
Zukunft: Die Arbeit legt den Grundstein für die Entwicklung robusterer Agenten, die in der Lage sind, komplexe, mehrstufige Workflows in realen Desktop-Umgebungen autonom zu bewältigen, und bietet eine Methode, um die Schwierigkeit von Benchmarks dynamisch an den Fortschritt der Modelle anzupassen.

Zusammenfassend demonstriert AgentSynth, dass durch intelligente Aufgabengenerierung (Schritt-für-Schritt) und Informationsasymmetrie hochwertige, komplexe Datensätze effizient erstellt werden können, die als entscheidende Testumgebung für die nächste Generation von KI-Agenten dienen.

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

1. Das Geheimnis: Der Unterschied zwischen „Bauen" und „Planen"

2. Die Baumaschine: Sechs Roboter-Arbeiter

3. Das Ergebnis: Ein riesiges Trainingslager

4. Der Test: Wie gut sind die Roboter wirklich?

Warum ist das wichtig?

Problemstellung

Methodik: AgentSynth Pipeline

Hauptbeiträge

Ergebnisse und Evaluation

Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics