AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Concept : Un "Simulateur de Vol" pour les Robots Ordinateurs

Imaginez que vous voulez apprendre à un robot à utiliser un ordinateur comme un humain. Le problème, c'est que pour l'entraîner, il faut lui montrer des milliers d'exemples de tâches (comme "envoyer un email", "créer un tableau Excel", "rechercher une info").

Jusqu'à présent, pour créer ces exemples, il fallait que des humains passent des heures à faire ces tâches eux-mêmes, étape par étape, pour les enregistrer. C'est lent, cher, et impossible à faire à grande échelle. C'est comme essayer d'enseigner à un pilote en lui faisant répéter chaque vol avec un instructeur humain à bord : ça coûte une fortune !

AgentSynth, c'est une nouvelle méthode qui change la donne. C'est comme si on avait créé un générateur de scénarios de vol infini qui s'écrit tout seul.

🧩 La Magie : L'Asymétrie de l'Information (Le Secret du Chef)

Le cœur de la méthode repose sur un astuce intelligente appelée "l'asymétrie de l'information".

Imaginez que vous devez construire une tour de Lego géante.

Pour un humain (ou un robot simple), construire la tour d'un seul coup en suivant un plan complexe est très difficile. Il risque de faire tomber des briques, de se tromper d'étage, et de tout casser.
Mais pour un robot intelligent, assembler une seule brique sur une autre est très facile.

AgentSynth utilise cette différence :

L'Étape Facile (La Génération) : Au lieu de demander à un robot de créer une tâche complexe d'un coup, on lui demande de faire une toute petite chose simple (ex: "Ouvrez Chrome"). Puis, on lui demande la chose suivante (ex: "Tapez 'météo'"). Et ainsi de suite. Comme chaque étape est simple, le robot y arrive presque toujours. On enregistre ces petites victoires.
L'Étape Difficile (L'Évaluation) : Une fois qu'on a une chaîne de 10 ou 20 petites étapes réussies, on les regroupe en une seule grande instruction : "Faites tout cela pour moi".
- Le résultat : Le robot qui a généré les étapes simples peut les faire. Mais un autre robot, qui doit essayer de résoudre le problème global d'un coup, va avoir beaucoup de mal !

C'est comme donner à un élève un examen où les questions sont faciles une par une, mais où l'élève doit tout retenir et tout enchaîner sans aide. C'est là que le vrai test commence.

🏭 La Usine à Tâches (Comment ça marche concrètement)

Le système utilise une équipe de "robots assistants" (des intelligences artificielles) qui travaillent en chaîne, comme une équipe de cuisine dans un restaurant :

Le Chef (Propositeur) : Il invente une idée de tâche basée sur un personnage (ex: "Un étudiant qui prépare sa thèse"). Il propose une petite tâche simple.
Le Cuisinier (Exécutant) : Il essaie de faire la tâche sur un ordinateur virtuel.
Le Contrôleur Qualité (Vérificateur) : Il regarde si la tâche est bien faite. Si le cuisinier a raté un ingrédient, le contrôleur dit : "Non, c'est pas ça".
Le Correcteur (Réviseur) : Si c'est raté, il dit au cuisinier : "Ah, tu as ouvert la mauvaise fenêtre, essaie encore".
Le Suiveur (Propositeur de suite) : Une fois la première tâche faite, il invente la suivante qui en découle naturellement (ex: "Maintenant, sauvegardez le document").
Le Résumé (Synthétiseur) : À la fin, il prend toutes ces petites étapes et les résume en une seule grande mission complexe.

📊 Les Résultats : Pourquoi c'est impressionnant ?

Les chercheurs ont créé plus de 6 000 tâches différentes avec cette méthode. Voici ce qu'ils ont découvert :

C'est pas cher : Coûter 0,60 $ par tâche (contre des dizaines de dollars si un humain le faisait). C'est comme passer du prix d'un repas gastronomique à celui d'un sandwich.
C'est dur ! Quand ils ont testé les meilleurs robots actuels (les plus intelligents), ils ont eu un résultat surprenant :
- Sur des tâches simples (niveau 1), les robots réussissent environ 18 % du temps.
- Sur des tâches complexes (niveau 6), leur réussite chute à 4 %.
- Pour comparaison : Les humains réussissent environ 70 % des tâches les plus difficiles.

Cela montre que nos robots sont encore très "bébés" quand il s'agit de faire plusieurs choses à la fois sur un ordinateur. Ils perdent le fil, oublient où ils sont, ou cliquent au mauvais endroit.

🎯 En Résumé

AgentSynth est une usine automatique qui crée des "devoirs" de plus en plus difficiles pour les robots.

Elle utilise une astuce : on construit le problème pièce par pièce (facile) pour le rendre ensuite complexe (difficile).
Elle permet de tester les robots à un niveau de difficulté que les humains ne peuvent pas produire assez vite.
Elle révèle que, même si les robots sont intelligents, ils ont encore beaucoup de mal à gérer des tâches longues et complexes sur un ordinateur réel.

C'est un outil essentiel pour aider les chercheurs à comprendre où sont les faiblesses de l'IA et comment la rendre plus autonome, un peu comme un simulateur de vol qui permet d'entraîner des pilotes à gérer des situations d'urgence sans risquer de crasher un vrai avion.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'entraînement et l'évaluation des agents informatiques généralistes (capables d'interagir avec des environnements de bureau, des logiciels et des systèmes d'exploitation) se heurtent à deux obstacles majeurs :

Le manque de données scalables : Les ensembles de données existants (comme OSWorld, τ-bench, TheAgentCompany) reposent largement sur des démonstrations humaines. Cette approche est coûteuse, lente et fondamentalement non scalable pour couvrir la vaste diversité des scénarios informatiques réels.
La difficulté de génération synthétique : Les tentatives précédentes de génération de données par des LLMs échouent souvent à produire des trajectoires fiables pour des tâches complexes à long terme. De plus, les stratégies de génération simplistes limitent la diversité des tâches et augmentent les risques de surapprentissage (overfitting) ou d'effondrement des modèles lors de l'entraînement.

Il existe un besoin urgent d'un pipeline capable de générer automatiquement des tâches réalistes, diversifiées et de haute qualité, avec un contrôle précis de leur difficulté.

2. Méthodologie : Le Pipeline AgentSynth

AgentSynth est un pipeline automatisé et évolutif qui exploite l'asymétrie d'information entre la phase de génération et la phase d'évaluation. L'idée centrale est qu'il est beaucoup plus facile pour un agent de résoudre une tâche étape par étape (dans le sens avant) que de déduire toute la solution d'un coup.

Le pipeline repose sur six agents LLM distincts opérant dans l'environnement simulé OSWorld (une interface de bureau réaliste) :

Task Proposer (Propositeur de tâche) : Génère une tâche initiale simple basée sur un "persona" aléatoire (profil utilisateur) et une capture d'écran du bureau. La tâche est conçue pour être réalisable en quelques actions atomiques.
Task Executor (Exécuteur) : Un agent de type ReAct (utilisant GPT-4.1 pour la planification et un modèle "computer-use" pour l'ancrage visuel) exécute la tâche. Il reçoit des captures d'écran et produit des actions exécutables (clics, frappes clavier) via pyautogui.
Task Verifier (Vérificateur) : Évalue si la trajectoire a réussi. Il utilise une architecture inspirée de WebJudge pour extraire les exigences clés et analyser un sous-ensemble de captures d'écran pertinentes, évitant ainsi la surcharge tokenique.
Task Reviser (Réviseur) : Si une tâche échoue partiellement, cet agent réécrit la description de la tâche pour qu'elle corresponde fidèlement aux actions réellement accomplies, garantissant la cohérence des données.
Follow-up Task Proposer (Propositeur de tâche suivante) : Une fois une sous-tâche validée, cet agent génère une nouvelle sous-tâche logique qui s'appuie sur l'état précédent, créant ainsi une séquence dépendante.
Task Summarizer (Résumeur) : À la fin d'une séquence de $n$ sous-tâches réussies, cet agent fusionne l'ensemble en une seule instruction de haut niveau (tâche composite).

Contrôle de la difficulté : La complexité est modulée en variant le nombre de sous-tâches ( $n$ ) incluses dans le résumé final. Une tâche de niveau 1 correspond à une seule sous-tâche, tandis qu'une tâche de niveau 6 combine 6 sous-tâches interdépendantes, augmentant ainsi l'horizon, la mémoire requise et les changements de contexte.

3. Contributions Clés

Pipeline de génération entièrement automatisé : AgentSynth permet de créer des milliers de tâches informatiques diversifiées sans intervention humaine, enchaînant itérativement des sous-tâches générées par LLM.
Exploitation de l'asymétrie d'information : En générant des trajectoires via des étapes simples et vérifiables, le système contourne la difficulté de la génération directe de tâches complexes, tout en produisant des tâches finales difficiles à résoudre pour les agents.
Benchmark à haute granularité : Création d'un ensemble de données de plus de 6 000 tâches réalistes couvrant divers domaines (bureautique, recherche, codage, etc.) avec des niveaux de difficulté contrôlés (de 1 à 6).
Coût extrêmement réduit : Le pipeline atteint un coût moyen de **0,60 $par trajectoire**, soit plusieurs ordres de grandeur moins cher que l'annotation humaine (qui coûte entre 4$ et 425 $ selon les benchmarks existants).

4. Résultats et Évaluations

Les auteurs ont évalué plusieurs agents LLMs state-of-the-art (o4-mini, GPT-4.1, Gemini-2.5-pro, Claude-3.7-Sonnet) sur le benchmark AgentSynth.

Chute de performance drastique : Les agents souffrent d'une baisse de performance sévère à mesure que la difficulté augmente.
- Niveau 1 : Taux de réussite moyen d'environ 18 %.
- Niveau 6 : Taux de réussite chute à 4 %.
- À titre de comparaison, les humains atteignent un taux de réussite de 70 % même sur les tâches les plus difficiles (Niveau 6).
Limites des modèles actuels : Les agents échouent principalement à cause de :
- Des clics de souris inexacts (problèmes d'ancrage visuel).
- Une mauvaise compréhension des captures d'écran et un manque de suivi d'état (mémoire).
- Une incapacité à récupérer après une erreur (boucles d'erreurs).
Impact du "Scaffolding" : L'ajout de cadres d'agents avancés (comme Agent S3 avec planification et auto-vérification) améliore les performances, mais la tendance de dégradation avec la difficulté persiste, confirmant la robustesse du benchmark.
Validation de l'asymétrie : Une étude d'ablation montre que la génération directe de tâches longues échoue souvent (taux de génération de 11 % pour les tâches "difficiles"), tandis que le pipeline AgentSynth maintient un taux de génération de trajectoires fiables (>50 %) tout en produisant des tâches d'évaluation très difficiles.

5. Signification et Impact

AgentSynth représente une avancée majeure pour la recherche sur les agents informatiques :

Scalabilité : Il démontre qu'il est possible de générer des données d'entraînement complexes à grande échelle à un coût négligeable, ouvrant la voie à l'entraînement de modèles sur des millions de trajectoires.
Benchmark discriminant : Il révèle un fossé important entre les capacités actuelles des LLMs et les exigences du monde réel, fournissant une métrique rigoureuse pour mesurer les progrès futurs.
Diversité et Réalisme : En couvrant une large gamme d'applications logicielles et de scénarios (du simple clic à la coordination multi-outils), il offre un terrain d'essai plus représentatif que les benchmarks web-only précédents.
Éthique : Le pipeline intègre des garde-fous pour éviter la génération de tâches impliquant des identifiants de connexion, des données personnelles réelles ou des actions malveillantes.

En conclusion, AgentSynth fournit non seulement un outil de génération de données puissant, mais aussi un défi fondamental qui met en lumière les lacunes actuelles des agents autonomes en matière de planification à long terme, de mémoire et de perception visuelle dans des environnements informatiques complexes.

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

🌟 Le Concept : Un "Simulateur de Vol" pour les Robots Ordinateurs

🧩 La Magie : L'Asymétrie de l'Information (Le Secret du Chef)

🏭 La Usine à Tâches (Comment ça marche concrètement)

📊 Les Résultats : Pourquoi c'est impressionnant ?

🎯 En Résumé

1. Problématique

2. Méthodologie : Le Pipeline AgentSynth

3. Contributions Clés

4. Résultats et Évaluations

5. Signification et Impact

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics