Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Each language version is independently generated for its own context, not a direct translation.

Tool-Genesis: Een nieuwe manier om te testen of AI-agenten echt kunnen "bouwen"

Stel je voor dat je een superintelligente robot hebt die je helpt met alledaagse taken, zoals het boeken van een treinreis of het analyseren van je financiën. Tot nu toe hebben we deze robots vooral getest op hun vermogen om bestaande gereedschappen te gebruiken. Het is alsof we kijken of de robot een hamer goed kan vasthouden en een spijker kan slaan. Maar wat als er geen hamer is? Wat als de robot zelf een nieuwe, perfecte hamer moet ontwerpen en bouwen om het werk te doen?

Dit is precies wat het nieuwe onderzoek "Tool-Genesis" onderzoekt. Het is een benchmark (een soort test) die kijkt of taalmodellen (AI) niet alleen gereedschappen kunnen gebruiken, maar ook zelf kunnen creëren op basis van een simpele beschrijving.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zwarte Doos"

Tot nu toe waren tests voor AI vaak als een zwarte doos. Je gaf de AI een opdracht (bijv. "Boek een ticket") en keek alleen of het antwoord klopte.

Het probleem: Als de AI faalt, weet je niet waarom. Heeft ze de verkeerde knop gedrukt? Of heeft ze een slechte "hamer" (gereedschap) gebouwd die niet werkt?
De vergelijking: Stel je voor dat je een kok test. Je vraagt hem om een taart te bakken. Als de taart mislukt, weet je niet of hij slecht heeft gemengd, of dat hij een oven heeft gebruikt die niet aanstaat. De oude tests keken alleen of de taart er lekker uitzag, niet of de oven wel werkte.

2. De Oplossing: Tool-Genesis

Tool-Genesis is als een bouwmeester-test voor AI. In plaats van te kijken of de AI een bestaande hamer kan gebruiken, geven we haar een opdracht als: "Ik moet een gat in de muur boren" (zonder dat we haar een boor geven). De AI moet dan:

Bedenken hoe een boor eruit moet zien (het ontwerp).
De boor zelf bouwen (de code schrijven).
Zorgen dat de boor echt werkt en niet breekt.

3. De Drie Stappen van de Test

De onderzoekers hebben een zeer grondige test opgezet die verder gaat dan alleen kijken of het resultaat klopt. Ze kijken naar vier niveaus, alsof je een nieuw gebouwd huis inspecteert:

Niveau 1: De Blauwdruk (Compliance)
Heeft de AI een plan gemaakt dat begrijpelijk is voor een aannemer? Als de AI een schema maakt dat onleesbaar is, faalt hij hier al.
- Vergelijking: Heeft de architect een tekening gemaakt die een bouwvakker kan lezen, of is het een kladje met onbegrijpbare krabbels?
Niveau 2: De Bouw (Uitvoerbaarheid)
Kan het gebouw (de software) echt worden opgetrokken? Start de server?
- Vergelijking: Als je de blauwdruk gebruikt, kan je het huis daadwerkelijk bouwen zonder dat de muren instorten?
Niveau 3: De Kwaliteitscontrole (Unit Tests)
Werkt de boor ook echt? De test bevat speciale "valstrikken" (negatieve tests). Bijvoorbeeld: "Wat gebeurt er als ik probeer te boren zonder stroom?" of "Wat als ik een te grote boor gebruik?"
- Vergelijking: Een echte test is niet alleen "werkt het?", maar ook "breekt het als ik er te hard op druk?" De AI moet een robuust gereedschap maken, niet eentje dat na één keer gebruik kapotgaat.
Niveau 4: De Eindopdracht (Downstream Utility)
Kan de AI nu met haar zelfgebouwde gereedschap de oorspronkelijke taak (de taart bakken) succesvol uitvoeren?
- Vergelijking: Als de AI een eigen boor heeft gebouwd, kan ze daarmee nu het gat in de muur boren zoals gevraagd?

4. Wat Vonden Ze? (De Verassing)

De resultaten waren verrassend, zelfs voor de slimste AI-modellen:

De "Eén-kans" valkuil: Als je de AI vraagt om in één keer (zonder fouten te mogen maken en te herstellen) een gereedschap te bouwen, lukt het vaak niet. Ze maken kleine foutjes in het ontwerp.
De Domino-effect: Deze kleine foutjes in het begin zorgen ervoor dat het hele proces later crasht. Het is alsof je een huis bouwt met een scheve fundering; het ziet er misschien even goed uit, maar zodra je erin gaat wonen, vallen de muren om.
De "Reparatie"-kracht: Als je de AI echter de kans geeft om te proberen, te zien wat er misgaat, en het te repareren (een zogenaamde "closed-loop" aanpak), dan wordt ze veel beter. Ze kan leren van haar fouten en een perfect werkend gereedschap bouwen.

5. Waarom is dit belangrijk?

Vroeger zagen we AI als een gebruiker van bestaande apps. Tool-Genesis laat zien dat de toekomst ligt bij AI die zelfstandig nieuwe tools kan creëren voor problemen waar we nog geen oplossing voor hebben.

De visie: In plaats van dat mensen voor elke nieuwe taak een nieuwe app moeten programmeren, kan de AI in de toekomst zelf een "virtuele app" bouwen die precies past bij jouw specifieke probleem.
De conclusie: Om dit te bereiken, moeten we AI niet alleen testen op het eindresultaat, maar op het hele bouwproces. Tool-Genesis is de eerste test die dit doet, zodat we weten waar AI goed in is en waar we haar nog moeten helpen.

Kortom: Tool-Genesis is de test die kijkt of een AI niet alleen een goede gebruiker is van gereedschappen, maar ook een echte uitvinder en bouwer die zelf nieuwe, veilige en betrouwbare gereedschappen kan maken voor de wereld van morgen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent", vertaald en samengevat in het Nederlands.

1. Het Probleem

Huidig onderzoek naar zelf-evoluerende taalagenten focust zich steeds meer op het vermogen om hulpmiddelen (tools) te creëren, aan te passen en te onderhouden op basis van taakeisen. Echter, bestaande benchmarks vertonen drie fundamentele tekortkomingen die de voortgang in de praktijk beperken:

Spec-first benadering: De meeste benchmarks gaan uit van reeds gedefinieerde interfaces of schema's. Hierdoor wordt de end-to-end capaciteit van een agent om contracten af te leiden uit abstracte eisen en machine-controleerbare schema's te genereren, niet gemeten.
Gebrek aan scenario-afgesloten toolsets: Evaluaties focussen vaak op de schaal of diversiteit van tool-collecties in plaats van op het bouwen van een samenhangende, onderhoudbare toolset die een specifiek real-world scenario volledig dekt.
De "Black Box" evaluatie: Bestaande benchmarks vertrouwen vaak op eindantwoorden of grove checks. Dit maakt het moeilijk om te bepalen of een falen veroorzaakt wordt door defecte tool-construktie (bijv. ongeldige schema's, logica-fouten) of door suboptimale gebruikstrategieën.

Bovendien blijkt dat zelfs de meest geavanceerde modellen moeite hebben om in één keer (one-shot) precieze tool-interfaces of uitvoerbare logica te creëren. Kleine initiële fouten worden versterkt door de pipeline, wat leidt tot een drastische daling in downstream prestaties.

2. Methodologie: Tool-Genesis

Om deze kloof te dichten, stellen de auteurs Tool-Genesis voor: een diagnostische benchmark die tool-generatie ontkoppelt van tool-gebruik.

Probleemformalisatie:
Het probleem wordt gezien als een conditionele generatie taak over Model Context Protocol (MCP) interfaces. Het proces wordt opgedeeld in twee gekoppelde fasen:

Tool Interface Prediction: Het voorspellen van een schema ( $\hat{s}$ ) op basis van een natuurlijke taal-eis ( $x$ ).
Tool Materialization: Het genereren van een uitvoerbare server-implementatie ( $\hat{e}$ ) op basis van het schema.

Dataset Constructie:
De dataset is opgebouwd via een strikt pipeline-proces (zie Figuur 2 in het paper):

Verzameling: MCP-servers worden verzameld uit bronnen zoals GitHub en aggregators.
Filtering: Een vier-staps filter (structuurvalidatie, uitvoerbaarheid, deduplicatie/clustering, en semantische validatie via LLM) resulteert in 86 hoogwaardige, uitvoerbare MCP-servers met 508 tools over 24 domeinen.
Taakgeneratie: Taken worden gegenereerd door LLM's die gedwongen worden om randgevallen en zeldzame parameterconfiguraties te verkennen.
Trajecten & Unit Tests: Realistische uitvoeringstrajecten worden gegenereerd in een sandbox. Er worden uitgebreide unit tests gegenereerd (inclusief negatieve en boundary-cases) om functionaliteit te verifiëren.
Manuele Inspectie: Graduate-reviewers controleren consistentie, solvabiliteit en de kwaliteit van de tests.

Evaluatie Protocol (4-niveaus):
In plaats van alleen het eindantwoord te kijken, meet Tool-Genesis vier niveaus van prestatie:

Surface Compliance (L1): Is het schema parseerbaar en MCP-compliant? Start de server succesvol?
Semantic Interface Fidelity (L2): Schema-F1 score: Hoe goed matcht het gegenereerde schema met het referentieschema (naam, argumenten, types)?
Functional Correctness (L3): Passen de tools unit tests? Dit omvat zowel "soft" (standaard) als "hard" (boundary/negatieve) tests.
Downstream Task Utility (L4): Een vaste proxy-agent lost taken op met de gegenereerde tools. De prestatie wordt genormaliseerd ten opzichte van een "Oracle" (de beste mogelijke referentie-implementatie) om de Oracle-Normalized Success Rate (SR) te berekenen.

3. Belangrijkste Bijdragen

Eerste diagnostische benchmark voor tool-creatie: Tool-Genesis is de eerste benchmark die agents evalueert op het vermogen om tools te creëren zonder vooraf gedefinieerde specificaties, puur op basis van abstracte eisen.
Full-lifecycle evaluatie: Het introduceert een protocol dat fouten kan lokaliseren (van interface tot uitvoering) en onderscheid maakt tussen constructiefouten en gebruiksfouten, waardoor het "black box" probleem wordt opgelost.
Oracle-Normalized Utility Gap: Een nieuwe metriek om de praktische waarde van gegenereerde tools te kwantificeren ten opzichte van de theoretische bovengrens (ground truth).
Inzicht in "One-shot" beperkingen: Het paper toont aan dat zelfs state-of-the-art modellen falen in het creëren van precieze interfaces in één keer, en dat gesloten-lus correctie (feedback) essentieel is.

4. Experimentele Resultaten

De auteurs hebben een breed scala aan modellen getest (OpenAI GPT-4/5, Anthropic Claude, Google Gemini, Qwen3, DeepSeek, Kimi) onder twee strategieën: Direct (single-pass) en Code-Agent (ReAct-style loop met sandbox feedback).

Gesloten-lus herstel is cruciaal: De Code-Agent strategie leidt tot aanzienlijke verbeteringen. Bijvoorbeeld, bij Gemini-3-Flash steeg de Server Execution Rate van 0,140 naar 0,977 en de Schema-F1 van 0,116 naar 0,912. Dit toont aan dat uitvoeringsfeedback effectief wordt vertaald naar correctheid.
Compliance is niet genoeg: Een hoge compliance (L1) of goede schema-fideliteit (L2) garandeert geen succes in downstream taken (L4). Fouten in implementatie-robustheid en randgeval-handeling worden pas zichtbaar tijdens uitvoering.
Schaalafhankelijkheid: Grotere modellen presteren beter, maar de rangorde kan veranderen afhankelijk van de strategie. Modellen die goed presteren in "Direct" modus, kunnen achterblijven in "Code-Agent" modus als ze niet goed in staat zijn om feedback te gebruiken voor reparatie.
Finetuning: Finetuning op Tool-Genesis data verbetert zowel de one-shot generatie (Direct) als de effectiviteit van het repareren van bugs (Code-Agent), wat aantoont dat de benchmark ook als trainingsset kan dienen.

5. Betekenis en Conclusie

Tool-Genesis markeert een verschuiving in het onderzoek naar taalagenten: van het gebruik van bestaande tools naar het creëren van duurzame, onderhoudbare tool-assets.

De belangrijkste conclusie is dat de huidige "one-shot" benadering van tool-creatie ontoereikend is voor real-world toepassingen. Kleine fouten in de initiële interface of logica worden versterkt en leiden tot complete mislukkingen. De benchmark benadrukt de noodzaak van:

Iteratieve verbetering: Agents moeten in staat zijn om tools te debuggen en te repareren op basis van uitvoeringsfeedback.
Robuuste validatie: Evaluatie moet gaan over functionaliteit en onderhoudbaarheid, niet alleen over het genereren van code die er "goed uitziet".
Toekomstige richting: Het paper roept de gemeenschap op om zich te richten op het synthetiseren van persistente, algemene hulpmiddelen die breed toepasbaar zijn, in plaats van tijdelijke scripts voor eenmalige taken.

Tool-Genesis biedt de community een gestandaardiseerde manier om deze complexiteit te meten en te sturen, wat essentieel is voor de ontwikkeling van echt zelf-evoluerende agenten.

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

1. Het Probleem: De "Zwarte Doos"

2. De Oplossing: Tool-Genesis

3. De Drie Stappen van de Test

4. Wat Vonden Ze? (De Verassing)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: Tool-Genesis

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem