AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Das Paper stellt AgentSynth vor, eine skalierbare und kosteneffiziente Pipeline zur automatischen Generierung hochwertiger Aufgaben und Trajektoriendatensätze für allgemeine Computer-Nutzungs-Agenten, die durch die Kombination einfacher Teilaufgaben komplexe Langzeit-Herausforderungen schafft und dabei deutlich günstiger als menschliche Annotationen ist.

Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr intelligenten, aber noch etwas unerfahrenen Roboter beibringen, wie man einen echten Computer benutzt – also nicht nur im Internet surfen, sondern Programme öffnen, Dateien speichern, Tabellenkalkulationen erstellen und zwischen verschiedenen Fenstern hin und her springen.

Das Problem ist: Um einen Roboter so zu trainieren, braucht man unzählige Beispiele. Früher mussten Menschen stundenlang vor dem Bildschirm sitzen und jeden Klick aufzeichnen. Das ist teuer, langsam und kaum skalierbar.

Hier kommt AgentSynth ins Spiel. Die Forscher von der UC Berkeley haben eine Art „Roboter-Schule" entwickelt, die sich selbstständig Aufgaben ausdenkt und löst, um den Roboter zu trainieren.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Geheimnis: Der Unterschied zwischen „Bauen" und „Planen"

Das Herzstück von AgentSynth ist ein cleverer Trick, den die Autoren Informationsasymmetrie nennen.

  • Der Vergleich: Stell dir vor, du musst ein riesiges Puzzle zusammenlegen.
    • Der schwierige Weg: Jemand gibt dir ein fertiges Bild und sagt: „Bastel das jetzt nach!" Das ist schwer, weil du den ganzen Plan im Kopf behalten musst.
    • Der AgentSynth-Weg: Jemand gibt dir die Puzzleteile einzeln und sagt: „Leg erst das rote Teil hierhin. Jetzt das blaue daneben." Das ist für den Roboter leicht zu tun. Aber am Ende sagt er: „Ah, ich habe ein riesiges Puzzle gebaut!"

AgentSynth nutzt diesen Trick. Es baut keine riesigen, komplizierten Aufgaben auf einmal. Stattdessen baut es viele kleine, einfache Schritte (Subtasks) hintereinander. Ein Schritt ist leicht (z. B. „Öffne den Browser"). Der nächste ist auch leicht (z. B. „Suche nach 'Wetter'"). Aber wenn man 10 dieser leichten Schritte zu einer Aufgabe zusammenfasst, wird es plötzlich sehr schwer für den Roboter, den Überblick zu behalten.

2. Die Baumaschine: Sechs Roboter-Arbeiter

Um diese Aufgaben zu erstellen, nutzen die Forscher ein Team aus sechs verschiedenen KI-Agenten, die wie eine gut organisierte Baustelle zusammenarbeiten:

  1. Der Architekt (Task Proposer): Er denkt sich eine kleine, harmlose Aufgabe aus, passend zu einer fiktiven Person (z. B. „Ein Student, der nach seinem Abschlussdatum sucht").
  2. Der Baumeister (Task Executor): Er führt die Aufgabe aus. Er klickt, tippt und scrollt genau wie ein Mensch.
  3. Der Kontrolleur (Task Verifier): Er schaut sich an, ob der Baumeister die Aufgabe richtig gemacht hat. Wenn etwas schiefgelaufen ist, sagt er: „Nein, das war falsch."
  4. Der Korrektor (Task Reviser): Wenn etwas schiefging, schreibt er die Aufgabe um, sodass sie genau das beschreibt, was der Roboter tatsächlich geschafft hat.
  5. Der Nachfolger (Follow-up Proposer): Sobald eine kleine Aufgabe erledigt ist, denkt er sich die nächste kleine Aufgabe aus, die darauf aufbaut.
  6. Der Zusammenfasser (Task Summarizer): Am Ende nimmt er alle kleinen Schritte und fasst sie zu einer großen, komplexen Aufgabe zusammen.

3. Das Ergebnis: Ein riesiges Trainingslager

Durch diesen Prozess haben die Forscher über 6.000 verschiedene Aufgaben erstellt.

  • Die Vielfalt: Die Aufgaben decken alles ab: von Office-Programmen über Web-Surfen bis hin zu Programmieren.
  • Der Preis: Das ist der wahre Durchbruch. Eine menschliche Aufgabe zu erstellen kostet zwischen 4 und 425 Dollar. AgentSynth schafft eine Aufgabe für nur 60 Cent. Das ist wie der Unterschied zwischen einem teuren Handwerker und einem 3D-Drucker.

4. Der Test: Wie gut sind die Roboter wirklich?

Die Forscher haben die besten aktuellen KI-Modelle (wie GPT-4 oder Claude) auf diesen neuen Aufgaben getestet. Das Ergebnis war ernüchternd, aber wichtig:

  • Bei sehr einfachen Aufgaben (Level 1) schafften die Roboter es noch zu 18 %.
  • Bei schwierigen Aufgaben (Level 6), die viele Schritte und viel Gedächtnis erfordern, fiel die Erfolgsrate auf nur noch 4 %.

Die Analogie: Es ist, als würdest du einem Schüler eine einfache Matheaufgabe geben (2+2). Das kann er. Aber wenn du ihm eine Aufgabe gibst, bei der er erst eine Formel suchen, dann eine Tabelle erstellen, dann die Zahlen eintragen und am Ende ein Diagramm zeichnen muss, dann scheitert er. Die KI kann „sehen" und „denken", aber sie verliert schnell den Faden, wenn die Kette zu lang wird.

Warum ist das wichtig?

AgentSynth ist wie ein unerschöpflicher Trainer.

  1. Es zeigt uns genau, wo die aktuellen KIs noch Schwächen haben (nämlich bei langen, komplexen Abläufen).
  2. Es ist so billig, dass wir in Zukunft Millionen von Aufgaben generieren können, um die KIs wirklich „smart" im Umgang mit Computern zu machen.

Kurz gesagt: AgentSynth hat einen Weg gefunden, wie man einem Roboter beibringt, einen ganzen Tag lang am Computer zu arbeiten, indem man ihm erst nur die einzelnen Schritte zeigt und ihn dann langsam an die komplexen Aufgaben herantastet – und das alles für einen Bruchteil der Kosten, die früher nötig waren.