AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een computer te gebruiken, net zoals een mens. Je wilt dat deze robot e-mails schrijft, spreadsheets maakt, en websites doorzoekt. Het probleem is: hoe leer je een robot dit allemaal? Je kunt het niet zelf doen voor elke mogelijke taak; dat kost te veel tijd en geld.

Dit is waar het onderzoek AgentSynth (van onderzoekers van de UC Berkeley) om de hoek komt kijken. Ze hebben een slimme, goedkope manier bedacht om duizenden nieuwe taken te "vinden" om deze robots te trainen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Menselijke" Fles

Vroeger moesten mensen handmatig taken bedenken voor deze robots. Ze zeiden: "Kijk, klik hier, typ dit, sla dit op."

De analogie: Dit is alsof je een kind leert zwemmen door elke beweging handmatig te doen. Het is duur, traag en je kunt maar een paar kinderen per dag trainen.
Het gevolg: Er zijn niet genoeg oefeningen, en de robots worden niet goed in moeilijke dingen.

2. De Oplossing: De "Bakkerij" van Taken

AgentSynth is een automatische fabriek die taken maakt. Maar ze doen het op een heel slimme manier, met een trucje dat ze informatie-asymmetrie noemen.

De Analogie: Stel je voor dat je een ingewikkeld gerecht wilt koken (bijv. een lasagne).
- De moeilijke manier: Zeg tegen de robot: "Maak een lasagne." De robot moet dan raden welke ingrediënten hij nodig heeft, in welke volgorde hij ze moet doen, en hoe hij de oven moet instellen. Dit is bijna onmogelijk voor een beginnende robot.
- De AgentSynth-methode: De robot maakt eerst een simpele stap: "Koop tomaten." Dan de volgende: "Snijd de ui." Dan: "Bak de saus."
- De truc: Het is heel makkelijk om die losse stappen te maken en te controleren of ze lukken. Maar als je die stappen achter elkaar plakt tot één groot recept ("Maak een lasagne"), wordt het voor de robot plotseling heel moeilijk om het hele plaatje te zien zonder de stap-voor-stap instructies.

3. Hoe werkt het precies? (De 6 Robot-Hulpen)

Het systeem gebruikt zes verschillende "AI-assistenten" die samenwerken:

De Ideeënman: Bedenkt een simpele taak voor een specifiek persoon (bijv. "Een student die zijn diploma zoekt").
De Uitvoerder: Voert die simpele taak uit op een virtuele computer.
De Controleur: Kijkt of het gelukt is.
De Hersteller: Als het mislukt, schrijft hij een nieuwe, makkelijkere instructie.
De Opvolger: Bedenkt de volgende simpele stap die logisch aansluit op de vorige.
De Samenvatter: Pakt al die simpele stappen en plakt ze aan elkaar tot één grote, moeilijke opdracht.

4. Het Resultaat: Een "Zwemles" voor Robots

Met dit systeem hebben ze 6.000 nieuwe taken gemaakt.

De kosten: Het kost hen ongeveer 60 cent per taak om te maken. Mensen zouden daar duizenden euro's voor vragen.
De moeilijkheid: Ze hebben taken gemaakt van "makkelijk" (1 stap) tot "extreem moeilijk" (60 stappen, waarbij je van programma naar programma moet wisselen).

5. Wat leerden we? (De Teleurstellende Test)

Toen ze de slimste robots ter wereld (zoals GPT-4 en Claude) op deze nieuwe taken lieten testen, gebeurde er iets opvallends:

Bij de makkelijke taken deden ze het redelijk goed.
Bij de moeilijke taken (met veel stappen) zakte hun prestatie dramatisch in. Van 18% succes naar slechts 4%.

De les: Onze slimme robots zijn nog steeds niet zo slim als we denken. Ze kunnen goed een losse stap doen, maar ze raken de weg kwijt als ze een lang verhaal moeten volgen. Ze vergeten wat ze eerder deden, klikken op de verkeerde knop, en weten niet hoe ze zich moeten herstellen als het misgaat.

Samenvatting

AgentSynth is als een gym voor robots. In plaats van dat mensen duizenden oefeningen moeten bedenken, gebruikt het systeem slimme AI om zelf duizenden nieuwe, steeds moeilijkere oefeningen te genereren. Het bewijst dat onze huidige robots nog veel moeten leren voordat ze echt onafhankelijk onze computers kunnen besturen.

Het is een enorme stap voorwaarts: we hebben nu een goedkope manier om robots te trainen, en we hebben eindelijk een eerlijke manier om te zien hoe goed (of slecht) ze echt zijn.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) tonen veelbelovende resultaten als autonome agenten die complexe, multi-stap taken kunnen uitvoeren in digitale omgevingen. Echter, het verzamelen van hoogwaardige datasets voor het trainen en evalueren van algemene computer-gebruiksagenten (die interactie hebben met desktop-omgevingen en software-applicaties) blijft een grote uitdaging.

Bestaande datasets (zoals $\tau$ -bench, OSWorld, TheAgentCompany) zijn grotendeels afhankelijk van menselijke demonstraties. Deze aanpak heeft drie fundamentele beperkingen:

Schaalbaarheid: Het is arbeidsintensief, duur en niet schaalbaar om de volledige breedte van realistische computertaken te dekken.
Diversiteit: Menselijke annotatie leidt vaak tot repetitieve of beperkte taken, wat het risico op overfitting of modelinstorting tijdens downstream-training vergroot.
Complexiteit: Bestaande synthetische methoden worstelen met het genereren van betrouwbare trajecten voor complexe taken of genereren te simpele taken die geen echte uitdaging vormen.

Methodologie: AgentSynth

AgentSynth is een volledig geautomatiseerde, schaalbare pijplijn die gebruikmaakt van informatie-asymmetrie om hoogwaardige, uitdagende taken en bijbehorende trajecten te synthetiseren. Het kerninzicht is dat het oplossen van een taak stap-voor-stap (in de voortwaartse richting) veel makkelijker is voor een LLM dan het redeneren over de volledige oplossing in één keer.

De pijplijn bestaat uit zes gespecialiseerde LLM-agenten die werken in de OSWorld-omgeving (een gesimuleerde desktop-omgeving):

Task Proposer: Genereert een initiële, eenvoudige taak gebaseerd op een willekeurig gekozen "persona" (gebruikersprofiel). De taken zijn beperkt tot enkele atomische acties.
Task Executor: Voert de taak uit. Dit is een ReAct-stijl agent die GPT-4.1 gebruikt voor planning en visuele context, en een gespecialiseerd "computer-use-preview" model voor het precieze plotten van pixel-coördinaten (klikken, typen, etc.).
Task Verifier: Evalueert of de uitgevoerde trajecten de taak succesvol voltooien. Het gebruikt een geselecteerde subset van screenshots (in plaats van alle frames) om token-kosten te verlagen en bepaalt een succes/fail-label en een voltooiingspercentage.
Task Reviser: Als een traject slechts gedeeltelijk succesvol is, past deze agent de taakomschrijving aan zodat deze overeenkomt met wat daadwerkelijk is bereikt.
Follow-up Task Proposer: Genereert een logisch volgende sub-taak die voortbouwt op de huidige staat. Dit proces wordt iteratief herhaald om een keten van sub-taken te vormen.
Task Summarizer: Samenvoegt een reeks succesvol uitgevoerde sub-taken tot één enkele, hoog-niveau taakomschrijving.

Schalen van Complexiteit:
De moeilijkheidsgraad wordt gecontroleerd door het aantal samengevoegde sub-taken.

Niveau 1: Samenvatting van 1 sub-taak.
Niveau 6: Samenvatting van 6 sub-taken.
Hoewel elke individuele sub-taak triviaal is voor de generator, wordt de samengestelde taak extreem uitdagend voor de evaluatie-agent vanwege de lange horizon, het behoud van context en het schakelen tussen verschillende applicaties.

Belangrijkste Bijdragen

AgentSynth Pijplijn: Een volledig geautomatiseerd systeem dat duizenden diverse, realistische computer-gebruikstaken genereert zonder menselijke tussenkomst.
Informatie-asymmetrie: Een nieuwe strategie waarbij taken worden opgebouwd via eenvoudige, oplosbare stappen, wat zorgt voor betrouwbare trajectdata terwijl de eindtaak behoudt een hoge moeilijkheidsgraad voor evaluatie.
Gedetailleerde Benchmark: Een dataset van meer dan 6.000 taken met variërende moeilijkheidsniveaus (1 tot 6), die de prestaties van state-of-the-art modellen testen.
Kostenefficiëntie: De kosten bedragen slechts $0,60 per traject, wat meerdere ordes van grootte goedkoper is dan menselijke annotatie (die $4-$425 per taak kan kosten).

Resultaten

Empirische evaluaties op de AgentSynth-benchmark tonen aan dat zelfs de meest geavanceerde multimodale LLM-agenten (zoals GPT-4.1, o4-mini, Claude-3.7-Sonnet, Gemini-2.5-pro) ernstig tekortschieten bij complexe taken:

Drastische Prestatie-daling: Het succespercentage daalt scherp naarmate de moeilijkheidsgraad toeneemt.
- Bij Niveau 1 (eenvoudig): ~18% succes.
- Bij Niveau 6 (complex): Daalt naar slechts 4% succes voor de beste modellen.
Menselijke Vergelijking: Mensen behalen nog steeds een succespercentage van 70% op de moeilijkste taken, wat een enorme kloof aantoont tussen menselijke en huidige AI-capaciteiten.
Foutpatronen: De agenten falen voornamelijk door:
- Onnauwkeurige muisklik-coördinaten.
- Slecht begrip van screenshots en staat-tracking (verlies van context).
- Gebrek aan herstelvermogen bij fouten (herhaling van falende acties in plaats van aanpassing).
Robuustheid: De resultaten zijn consistent over verschillende basismodellen voor generatie (GPT-4.1 tot GPT-5.1), wat aantoont dat de uitdaging inherent is aan de taakcomplexiteit en niet specifiek is voor één generator.

Betekenis en Impact

AgentSynth biedt een cruciale stap voorwaarts in de ontwikkeling van algemene computer-gebruiksagenten:

Schaalbare Data: Het lost het probleem van schaarste aan hoogwaardige trainingsdata op door een kostenefficiënte, oneindig schaalbare bron van realistische taken te bieden.
Realistische Evaluatie: Het introduceert een benchmark die echt onderscheidend vermogen heeft; bestaande benchmarks zijn vaak te eenvoudig om de beperkingen van moderne modellen bloot te leggen.
Toekomstgericht: De methode maakt het mogelijk om systematisch complexere taken te genereren naarmate modellen verbeteren, waardoor AgentSynth een langdurig bruikbaar hulpmiddel blijft voor onderzoek en ontwikkeling in het veld van autonome agenten.

Kortom, AgentSynth demonstreert dat hoewel LLM's goed zijn in het oplossen van simpele stappen, ze nog steeds fundamenteel worstelen met het plannen en uitvoeren van lange, complexe reeksen acties in dynamische desktop-omgevingen.

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

1. Het Probleem: De "Menselijke" Fles

2. De Oplossing: De "Bakkerij" van Taken

3. Hoe werkt het precies? (De 6 Robot-Hulpen)

4. Het Resultaat: Een "Zwemles" voor Robots

5. Wat leerden we? (De Teleurstellende Test)

Samenvatting

Probleemstelling

Methodologie: AgentSynth

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics