AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten ein Haus bauen. Früher mussten Sie selbst jeden Ziegel auswählen, den Mörtel mischen und das Dach designen. Das war mühsam und erforderte viel Fachwissen.

Heute gibt es KI-Agenten. Das sind wie fertige, intelligente Handwerker, die für Sie arbeiten. Ein Agent kann E-Mails schreiben, Daten analysieren oder Reisen buchen. Das Problem ist nur: Es gibt tausende dieser Handwerker. Manche sind super im Kochen, andere im Programmieren, wieder andere können nur sehr einfache Aufgaben.

Wenn Sie jetzt sagen: „Ich möchte eine Party planen, bei der ich die Gäste einlade, das Essen bestelle und eine Playlist erstelle", wie finden Sie den perfekten Handwerker dafür?

Das ist genau das Problem, das die Forscher in diesem Papier mit AgentSelect lösen wollen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der Dschungel der Optionen

Stellen Sie sich einen riesigen Supermarkt vor, in dem es 100.000 verschiedene Werkzeugkästen gibt. Jeder Kasten enthält einen anderen Computer-Chip (das „Gehirn" des Agenten) und verschiedene Werkzeuge (z. B. einen Taschenrechner, einen Wetter-Scanner oder einen Übersetzer).

Bisher gab es keine gute Anleitung, um zu sagen: „Für diese spezifische Aufgabe ist dieser Werkzeugkasten der beste." Die bisherigen Tests haben nur geprüft, wie gut ein Chip allein ist oder wie gut ein einzelnes Werkzeug funktioniert. Aber wer den ganzen Kasten zusammenstellt, steht oft ratlos da. Es ist wie ein Dschungel aus Möglichkeiten, in dem man leicht den falschen Weg wählt.

2. Die Lösung: AgentSelect (Der perfekte Reiseleiter)

Die Forscher haben AgentSelect entwickelt. Man kann sich das wie einen intelligenten Reiseleiter vorstellen, der nicht nur sagt, wo die besten Hotels sind, sondern genau das Hotel für Ihre spezifische Reisetour findet.

Die Idee: Statt nur zu testen, wie gut ein Agent ist, lernen sie, wie man einen Agenten basierend auf Ihrer Geschichte (Ihrer Frage) auswählt.
Die Daten: Sie haben riesige Mengen an Daten gesammelt (über 111.000 Fragen und 107.000 Agenten-Kombinationen). Sie haben diese Daten so aufbereitet, dass sie wie eine „Liebeskorrespondenz" aussehen: „Für diese Frage war dieser Agent die perfekte Antwort."

3. Wie funktioniert das? (Die drei Teile des Puzzles)

Um den Reiseleiter zu trainieren, haben sie drei verschiedene Arten von „Lektionen" zusammengestellt:

Teil 1: Der reine Denker (LLM-only). Hier geht es nur um das Gehirn. Welcher KI-Modell-Typ ist gut für Matheaufgaben? Welcher für kreatives Schreiben?
Teil 2: Der Werkzeug-Sammler (Toolkit-only). Hier geht es nur um die Werkzeuge. Welche Werkzeuge braucht man, um eine Reise zu buchen? (Flugbuchung, Hotel, Wetter).
Teil 3: Die Kombination (Compositional Agents). Das ist das Wichtigste! Hier lernen sie, wie man Gehirn und Werkzeuge perfekt kombiniert. Wie ein Koch, der nicht nur gute Zutaten (Werkzeuge) hat, sondern auch ein Kochbuch (Gehirn), das genau weiß, wie man sie mischt.

4. Die große Entdeckung: Nicht jeder ist ein Star

Die Forscher haben etwas Überraschendes herausgefunden. In der Welt der KI-Agenten gibt es keine „Superstars", die immer alles können.

Früher dachte man: „Der beliebteste Agent ist immer der beste." (Wie ein berühmter Schauspieler, der in jedem Film mitspielt).
Jetzt wissen wir: Die meisten Aufgaben sind so speziell, dass man einen ganz bestimmten, vielleicht weniger bekannten Agenten braucht. Es ist wie bei einem Schneemann: Für einen normalen Schneemann braucht man Schnee und eine Karotte. Für einen Schneemann, der im Weltraum stehen soll, braucht man spezielle Materialien. Der „beliebteste" Agent ist oft nicht der richtige für Ihre spezielle, einmalige Aufgabe.

5. Warum ist das wichtig?

Mit AgentSelect können wir in Zukunft eine App bauen, in der Sie einfach sagen: „Ich brauche einen Agenten, der meine Steuererklärung macht und dabei die neuesten Gesetze kennt."

Das System sucht dann nicht mehr blind herum, sondern schlägt Ihnen sofort die perfekte Kombination aus Gehirn und Werkzeugen vor – ganz ohne dass Sie wissen müssen, wie die Technik dahinter funktioniert. Es demokratisiert die KI: Jeder kann sich einen maßgeschneiderten Assistenten zusammenstellen, ohne Experte zu sein.

Zusammenfassung in einem Satz

AgentSelect ist wie ein hochintelligenter Personal Trainer für KI-Agenten: Er schaut sich Ihre Ziele an und stellt Ihnen genau das Team aus Gehirn und Werkzeugen zusammen, das Sie brauchen, um Ihre Aufgabe perfekt zu erledigen – und das, ohne dass Sie selbst ein Experte für Computertechnik sein müssen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation" auf Deutsch:

1. Problemstellung

Die Landschaft der KI-Agenten wächst rasant, wobei Large Language Models (LLMs) zunehmend mit externen Werkzeugen und Ausführungslogik kombiniert werden, um komplexe Aufgaben zu automatisieren. Trotz der Verfügbarkeit von Frameworks (wie LangGraph oder Agno) und einer Vielzahl von Agenten-Konfigurationen fehlt es an einem systematischen Ansatz, um für eine spezifische, narrative Benutzeranfrage den optimalen Agenten auszuwählen.

Das zentrale Problem ist die Lücke zwischen der Komposition von Agenten und deren Auswahl:

Fragmentierte Bewertung: Bestehende Benchmarks bewerten LLMs oder Werkzeuge isoliert (z. B. reine Antwortqualität oder Tool-Nutzung), aber nicht die Kombination aus Modell und Werkzeug als ganzheitliche, einsetzbare Konfiguration.
Fehlende Überwachungssignale: Es gibt kaum datengestützte, abfragebedingte (query-conditioned) Supervision, um zu lernen, welche Agenten-Konfiguration (Backbone-Modell + Werkzeugset) für eine bestimmte natürliche Sprachanfrage am besten geeignet ist.
Komplexität des Designraums: Die Auswahl eines Agenten erfordert das Kombinieren eines Sprachmodells mit einem kompatiblen Werkzeugset und Laufzeitrichtlinien, was einen riesigen Konfigurationsraum erzeugt, der für Endnutzer schwer zu navigieren ist.

2. Methodik: Der AgentSelect-Benchmark

Die Autoren stellen AGENTSELECT vor, einen Benchmark, der das Agent-Selection-Problem als narrative Query-to-Agent-Empfehlung neu definiert.

A. Datenstruktur und Fähigkeitserprofile

Jeder Agent wird nicht als abstrakte ID, sondern als Fähigkeitsprofil (Capability Profile) $A = (M, T)$ dargestellt:

$M$ : Das Backbone-Sprachmodell.
$T$ : Die Menge der externen Werkzeuge (APIs, Funktionen).
Die Daten werden als ausführbare YAML-Konfigurationsdateien gespeichert, die eine direkte Implementierung in Agent-Frameworks ermöglichen.

B. Datenaufbau (Drei Teile)

Der Datensatz besteht aus 111.179 narrativen Anfragen und 107.721 einsetzbaren Agenten, aggregiert aus über 40 Quellen. Die Supervision erfolgt ausschließlich über positive Interaktionen (Positive-Only):

Teil I (LLM-only): Basierend auf LLM-Leaderboards (z. B. Open LLM Leaderboard). Hier werden Agenten nur aus dem Modell $M$ gebildet. Die Daten stammen aus query-granularen oder datensatz-granularen Bewertungen, um Präferenzen für Modelle bei reinen Textaufgaben zu lernen.
Teil II (Toolkit-only): Basierend auf Tool-Use-Benchmarks (z. B. ToolBench, APIBank). Hier wird der Backbone auf einen Platzhalter gesetzt, und das Werkzeugset $T$ wird isoliert bewertet, um die Eignung von Werkzeugen unabhängig vom Modell zu lernen.
Teil III (Compositional Agents): Dies ist der innovativste Teil. Da reale Agenten Kombinationen aus $M$ $M$ und $T$ $T$ sind, aber echte Interaktionsdaten fehlen, synthetisieren die Autoren pseudo-positive Interaktionen.
- Ein Pipeline-Prozess wählt repräsentative Anfragen aus.
- Es werden passende Modelle und Werkzeuge durch Retrieval-Modelle (trainiert auf Teil I/II) gefunden.
- Diese Komponenten werden zu $(M, T)$ -Konfigurationen zusammengesetzt, die als „Pseudo-Positiv" für die jeweilige Anfrage dienen.

C. Lernziel

Das Ziel ist ein Recommender-System, das eine freie natürliche Spracheingabe $Q$ erhält und eine Rangliste von Agenten-Konfigurationen ausgibt, die die erwartete Nützlichkeit maximieren.

3. Schlüsselbeiträge

Erster einheitlicher Benchmark: AGENTSELECT ist die erste Infrastruktur, die heterogene Evaluierungsartefakte (Leaderboards, Tool-Benchmarks) in ein standardisiertes, query-basiertes Empfehlungsformat überführt.
Paradigmenwechsel in der Datenverteilung: Die Analyse zeigt einen Wechsel von „dichter Wiederverwendung" (Head-Reuse, wo wenige Agenten oft genutzt werden) hin zu einer Long-Tail-Verteilung mit „nahezu einmaligen" Supervisionen. In diesem Regime versagen herkömmliche kollaborative Filterungsmethoden (CF/GNN), die auf ID-Ähnlichkeit basieren.
Bedeutung von inhaltsbasiertem Matching: Der Benchmark demonstriert, dass inhaltsbewusstes Capability-Matching (basierend auf Textbeschreibungen von Modellen und Werkzeugen) entscheidend ist, insbesondere im Long-Tail-Bereich.
Validierung synthetischer Daten: Die Autoren beweisen, dass die synthetisierten Interaktionen aus Teil III lernbar sind und das Modell empfindlich auf subtile Änderungen in den Fähigkeiten (z. B. Entfernen eines Schlüsselinstruments) reagiert.

4. Ergebnisse und Analyse

Die Evaluation umfasste verschiedene Modellfamilien (Matrix Factorization, Graph Neural Networks, Two-Tower-Modelle, Generative Recommender).

Versagen von ID-basierten Methoden: Methoden, die stark auf Query-IDs oder Agent-IDs angewiesen sind (wie NGCF, LightGCN), schneiden in den Teilen II und III (Long-Tail) extrem schlecht ab, da es kaum wiederkehrende IDs gibt.
Überlegenheit von Content-Aware Models: Zwei-Tower-Architekturen und Transformer-basierte Embeddings (z. B. BGE-M3), die die semantische Bedeutung von Query, Modell und Werkzeug nutzen, erzielen die besten Ergebnisse.
- Ergebnis: Feinabstimmung (Fine-Tuning) von Embeddings auf den In-Domain-Datensatz verbessert die Leistung drastisch im Vergleich zu Zero-Shot-Modellen.
Robustheit gegenüber IDs: Ablationsstudien zeigen, dass Modelle auch ohne diskrete IDs (nur mit Textbeschreibungen) hohe Genauigkeit erreichen. Dies bestätigt, dass das System echte Fähigkeiten lernt und nicht nur populäre IDs auswendig lernt.
Counterfactual Sensitivity: Modelle, die auf AGENTSELECT trainiert wurden, zeigen das erwartete Verhalten bei kontrafaktischen Änderungen (z. B. sinkt die Bewertung, wenn ein wichtiges Werkzeug entfernt wird).

5. Signifikanz und praktische Anwendung

Transferlernen: Ein auf AGENTSELECT trainiertes Modell (EasyRec*) wurde auf einen realen Agent-Marktplatz (MuleRun) übertragen. Es übertraf dort deutlich nicht trainierte Baselines, was die praktische Übertragbarkeit der synthetischen Supervision beweist.
End-to-End-Validierung: Durch das Ausführen empfohlener Agenten in einer simulierten Umgebung (Agno + MIRRORAPI) wurde gezeigt, dass die Rangfolge des Recommenders mit dem tatsächlichen Erfolg der Aufgabenkorrelation aufweist.
Ökosystem-Unterstützung: Der Benchmark bietet eine reproduzierbare Grundlage für die Entwicklung von Agent-Routern, Tool-Retrievern und Recommender-Systemen. Er ermöglicht es, von manuellen Konfigurationen hin zu adaptiven Systemen zu gelangen, die auf Anfrage maßgeschneiderte Agenten erstellen.

Fazit

AgentSelect schließt eine kritische Lücke in der KI-Agenten-Forschung, indem es die Auswahl von Agenten von einer manuellen, expertengetriebenen Aufgabe in ein datengesteuertes Empfehlungsproblem überführt. Der Benchmark beweist, dass durch die Synthese von Trainingsdaten und den Fokus auf inhaltsbasierte Fähigkeitsprofile robuste Agenten-Empfehlungssysteme entwickelt werden können, die auch in realen, langschwanzigen Märkten funktionieren.