Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein KI-Agent ist wie ein hochintelligenter, aber noch etwas unerfahrener Handwerker, der dir bei komplexen Aufgaben helfen soll. Bisher haben wir diesen Handwerker nur mit einem fertigen Werkzeugkasten ausgestattet. Wenn er ein Loch bohren musste, hat er einfach den passenden Bohrer aus dem Kasten genommen. Das funktionierte gut, solange wir ihm genau sagten, welcher Bohrer welcher ist.

Aber die echte Welt ist chaotisch. Manchmal brauchst du ein Werkzeug, das es gar nicht gibt, oder du musst ein altes Werkzeug so umbauen, dass es für eine völlig neue Aufgabe passt. Hier kommt das neue Forschungsprojekt Tool-Genesis ins Spiel.

Hier ist die Erklärung, was die Forscher gemacht haben, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Black-Box"-Effekt

Bisher haben wir KI-Modelle getestet, indem wir ihnen sagten: "Bau mir ein Werkzeug, das genau so funktioniert wie diese Beschreibung." Das war wie ein Koch, dem man ein fertiges Rezept gibt und sagt: "Koch das nach." Wenn das Essen schmeckte, war alles gut. Wenn nicht, wussten wir nicht, ob der Koch die Zutaten falsch verstanden hat, das Messer stumpf war oder er einfach den Ofen falsch eingestellt hat.

Die Forscher nennen das ein "Black Box" (eine schwarze Kiste). Wir sehen nur das Ergebnis, aber nicht, wo genau es schiefgelaufen ist.

2. Die Lösung: Tool-Genesis (Die "Werkzeug-Schmiede")

Die Forscher haben einen neuen Test entwickelt, den sie Tool-Genesis nennen. Stell dir das nicht als Kochrezept vor, sondern als eine Baustelle, auf der der Handwerker erst das Werkzeug selbst schmieden muss, bevor er bauen darf.

Die Aufgabe: Der KI-Agent bekommt nur eine grobe Beschreibung: "Ich brauche etwas, mit dem ich meine Reise buchen kann." Er bekommt kein fertiges Rezept. Er muss selbst entscheiden: "Okay, ich brauche eine Funktion zum Suchen, eine zum Buchen und eine zum Ändern."
Der Test: Der Agent muss nicht nur das Werkzeug bauen, sondern es auch so bauen, dass es sicher ist, funktioniert und wiederverwendet werden kann (wie ein gutes Werkzeug, das man jahrelang nutzen kann, nicht nur ein einmaliges Papierblatt).

3. Der große Aha-Moment: Der "Domino-Effekt"

Das Spannendste an der Studie ist, was sie entdeckt haben. Selbst die klügsten KI-Modelle (die "Super-Genies" unter den KIs) machen beim ersten Versuch kleine Fehler beim Bauen des Werkzeugs.

Die Analogie: Stell dir vor, du baust ein Haus. Wenn du den ersten Stein (das Werkzeug-Interface) nur ein Millimeter schief setzt, ist das vielleicht kaum sichtbar. Aber wenn du darauf das zweite, dritte und vierte Stockwerk baust (die eigentliche Aufgabe), kippt das ganze Haus irgendwann um.
Das Ergebnis: Diese winzigen Anfängerfehler beim Erstellen des Werkzeugs werden im Prozess immer größer und führen dazu, dass die KI am Ende völlig versagt. Die Forscher nennen das einen "stürzenden Abfall" in den Ergebnissen.

4. Der neue Prüfstand: Wie man wirklich misst

Früher haben wir nur geschaut: "Hat die KI die Aufgabe gelöst?" (Ja/Nein).
Tool-Genesis schaut sich den ganzen Prozess an, wie ein Kfz-Mechaniker, der nicht nur schaut, ob das Auto fährt, sondern jeden Schritt prüft:

Passt das Werkzeug? (Ist das Interface korrekt?)
Läuft der Motor? (Kann das Werkzeug überhaupt gestartet werden?)
Funktioniert es unter Stress? (Hält es Tests aus, auch wenn man es falsch bedient?)
Bringt es das Ziel? (Kann die KI damit die eigentliche Aufgabe lösen?)

5. Was sie gelernt haben

Die Studie zeigt, dass KIs heute noch sehr schlecht darin sind, eigene, robuste Werkzeuge zu erfinden, wenn sie nicht genau vorgeschrieben bekommen, wie sie aussehen sollen.

Einmaliges Bauen reicht nicht: Wenn die KI das Werkzeug nur einmal "aus dem Bauch heraus" baut, ist es oft fehlerhaft.
Selbstkorrektur hilft: Wenn man der KI erlaubt, ihr Werkzeug zu testen, zu sehen, wo es hakt, und es dann zu reparieren (wie ein Handwerker, der den Hammer fallen lässt und ihn sich holt), wird sie plötzlich viel besser.
Die Zukunft: Das Ziel ist es, KIs so zu trainieren, dass sie nicht nur Werkzeuge benutzen, sondern eine ganze Werkbank aufbauen können, die sie immer wieder nutzen und verbessern können, um echte, komplexe Probleme in der echten Welt zu lösen.

Zusammenfassend:
Tool-Genesis ist wie ein neuer, strenger Lehrmeister für KI-Handwerker. Er sagt nicht mehr: "Mach das so!" sondern: "Hier ist ein Problem. Baue dir das Werkzeug, das du brauchst, und beweise mir, dass es funktioniert." Und er hat uns gezeigt, dass selbst die besten Schüler noch viel Übung brauchen, bevor sie ihre eigenen Werkzeuge sicher schmieden können.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent" auf Deutsch:

1. Problemstellung

Die Forschung zu sich selbst weiterentwickelnden Sprachagenten (Self-Evolving Language Agents) konzentriert sich zunehmend auf deren Fähigkeit, Werkzeuge (Tools) basierend auf Aufgabenanforderungen zu erstellen, anzupassen und zu warten. Bestehende Benchmarks leiden jedoch unter drei wesentlichen Mängeln:

Spezifikationsabhängigkeit: Die meisten Evaluierungen gehen von vordefinierten Schnittstellen (Schemata) aus. Sie testen nicht die Fähigkeit des Agents, Verträge (Interfaces) aus abstrakten Anforderungen abzuleiten.
Fehlende Wiederverwendbarkeit: Viele Ansätze bewerten nur die Skalierbarkeit oder Vielfalt von Werkzeugkollektionen, nicht aber die Konstruktion eines konsolidierten, wartbaren Werkzeugsets für spezifische Szenarien.
„Black-Box"-Evaluation: Die Bewertung erfolgt oft rein ergebnisorientiert (z. B. war die Antwort korrekt?). Dies macht es unmöglich, Fehlerquellen zu isolieren: Lag der Fehler an einer fehlerhaften Werkzeugkonstruktion (z. B. ungültiges Schema, Logikfehler) oder an einer suboptimalen Nutzungsstrategie?

Das Ziel von Tool-Genesis ist es, diese Lücken zu schließen, indem es Agenten bewertet, die Werkzeuge ohne vorgegebene Spezifikationen aus abstrakten Anforderungen erstellen müssen.

2. Methodik und Benchmark-Design

Problemformulierung

Tool-Genesis formalisiert die Werkzeugerstellung als bedingtes Generierungsproblem über das Model Context Protocol (MCP). Der Prozess wird in zwei Phasen unterteilt:

Vorhersage der Schnittstelle (Interface Prediction): Der Agent muss aus einer natürlichen Sprachbeschreibung ( $X$ ) ein strukturiertes Schema ( $\hat{s}$ ) ableiten (JSON-Schema-ähnlich).
Materialisierung (Materialization): Basierend auf dem Schema muss der Agent eine ausführbare Server-Implementierung ( $\hat{e}$ ) generieren.

Datensatzkonstruktion

Der Datensatz wurde durch einen strengen Pipeline-Prozess erstellt:

Sammlung: 86 MCP-Server aus verschiedenen Quellen (GitHub, HuggingFace, Aggregatoren) wurden gesammelt.
Filterung: Durch Strukturvalidierung, ausführbare Validierung (Sandbox), Deduplizierung und semantische Validierung durch LLMs wurden nur hochwertige, sichere und isoliert ausführbare Server ausgewählt.
Aufgaben & Trajektorien: 2.150 Aufgaben wurden generiert, die reale Szenarien abdecken. Dazu wurden Ausführungstrajektorien in einer Sandbox erstellt, um sicherzustellen, dass sie auf echten API-Antworten basieren und keine Halluzinationen enthalten.
Unit-Tests: Es wurden 9.441 Unit-Tests (einschließlich negativer Tests und Grenzfällen) generiert, um die Funktionalität der erstellten Tools zu überprüfen.
Manuelle Prüfung: Ein Team von Annotatoren prüfte die Konsistenz, Vollständigkeit und Korrektheit der Daten (Kappa = 0,85).

Evaluierungsprotokoll (Vier-Ebenen-Metriken)

Um das „Black-Box"-Problem zu lösen, wurde ein diagnostisches Protokoll mit vier Ebenen eingeführt:

Ebene 1 (Surface Compliance): Prüfung, ob das Tool-Registry parsbar und MCP-konform ist und ob der Server startet (Compliance Rate, Server Execution Rate).
Ebene 2 (Semantic Interface Fidelity): Vergleich der generierten Schnittstellen mit Referenzschemata mittels Schema-F1 (basierend auf bipartitem Matching).
Ebene 3 (Functional Correctness): Ausführung von Unit-Tests. Unterscheidung zwischen weichen Tests (UTsoft) und strengen Tests mit Grenzfällen/negativen Fällen (UThard).
Ebene 4 (Downstream Task Utility): Ein Proxy-Agent (Qwen3-14B) versucht, die Benchmark-Aufgaben mit den generierten Tools zu lösen. Die Erfolgsrate wird als Oracle-Normalized Success Rate (SR) berichtet, die den Nutzen der generierten Tools im Vergleich zu einem perfekten Referenz-Tool quantifiziert.

3. Schlüsselergebnisse

Die Experimente umfassten eine breite Palette von Modellen (OpenAI GPT-Serie, Anthropic Claude, Google Gemini, Qwen3, DeepSeek, Kimi) unter zwei Strategien:

Direct: Ein-Pass-Generierung ohne Rückkopplung.
Code-Agent: Ein ReAct-ähnlicher Loop („Think → Act → Observe"), der Sandbox-Ausführungen nutzt, um generierte Artefakte zu validieren und zu reparieren.

Wichtige Erkenntnisse:

Schwierigkeit der One-Shot-Erstellung: Selbst State-of-the-Art-Modelle scheitern oft daran, präzise Schnittstellen oder ausführbare Logik im One-Shot-Modus zu erstellen. Kleine Fehler in der ersten Phase werden durch die Pipeline verstärkt und führen zu einem drastischen Abfall der Downstream-Metriken.
Nutzen von Closed-Loop-Reparatur: Die Code-Agent-Strategie führt zu signifikanten Verbesserungen. Beispielsweise stieg die Server-Execution-Rate bei Gemini-3-Flash von 0,140 auf 0,977 und die Task-Success-Rate von 0,103 auf 0,581. Feedback aus der Ausführung ist entscheidend für die Fehlerbehebung.
Skaleneffekte: Größere Modelle profitieren stärker von der Reparaturstrategie. Interessanterweise können sich die Rangfolgen der Modelle je nach Strategie ändern (z. B. überholt Qwen3-235B in der Code-Agent-Strategie Qwen3-32B, obwohl es im Direct-Modus schlechter abschneidet).
Finetuning: Das Feinabstimmen (Finetuning) auf Tool-Genesis-Daten verbessert sowohl die One-Shot-Generierung als auch die Effektivität der Reparatur im Closed-Loop, was zeigt, dass die Fähigkeit zur Werkzeugerstellung internalisiert werden kann.

4. Hauptbeiträge

Tool-Genesis Benchmark: Ein diagnostischer Benchmark, der Werkzeugerstellung als eigenständige Fähigkeit bewertet, ohne auf vordefinierte Spezifikationen zurückzugreifen. Er fördert die Erstellung wiederverwendbarer, wartbarer Werkzeug-Assets statt einmaliger Skripte.
Diagnostisches Evaluierungsprotokoll: Ein vollständiger Lebenszyklus-Ansatz, der Fehlerursachen präzise zuordnet (Schnittstellenkonformität vs. Logikfehler vs. Nutzungsstrategie) und damit das „Black-Box"-Problem löst.
Oracle-normalisierte Metrik: Eine neue Metrik, die den Nutzenlücke zwischen generierten Tools und Ground-Truth-Tools quantifiziert, um den Fortschritt bei der Selbstentwicklung besser zu messen.
Empirische Erkenntnisse: Der Nachweis, dass aktuelle Modelle ohne Rückkopplungsschleifen (Closed-Loop) kaum in der Lage sind, robuste Werkzeuge zu erstellen, und dass die Fähigkeit zur Fehlerbehebung basierend auf Ausführungsergebnissen eine kritische, aber oft unterschätzte Komponente ist.

5. Bedeutung und Ausblick

Tool-Genesis verschiebt den Fokus von der reinen Nutzung von Werkzeugen hin zur Erstellung und Wartung von Werkzeugen. Es zeigt, dass für echte autonome Agenten, die in dynamischen Umgebungen operieren, die Fähigkeit, aus abstrakten Anforderungen funktionierende, fehlerfreie und wiederverwendbare Software-Assets zu synthetisieren, entscheidend ist. Der Benchmark bietet der Community ein Werkzeug, um Fortschritte in der Induktion, Reparatur und Verifikation von Tools in realistischen Deployment-Szenarien gezielt zu verfolgen und zu messen.