AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

Die Arbeit stellt AgentSelect vor, ein umfassendes Benchmark-System, das die Auswahl von LLM-Agenten als Empfehlungsaufgabe neu definiert und durch eine einheitliche Datensammlung sowie neue Evaluierungsmethoden die Lücke zwischen isolierten Komponentenbewertungen und der praxisnahen, abfragebasierten Konfiguration ganzer Agentensysteme schließt.

Yunxiao Shi, Wujiang Xu, Tingwei Chen, Haoning Shang, Ling Yang, Yunfeng Wan, Zhuo Cao, Xing Zi, Dimitris N. Metaxas, Min Xu

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten ein Haus bauen. Früher mussten Sie selbst jeden Ziegel auswählen, den Mörtel mischen und das Dach designen. Das war mühsam und erforderte viel Fachwissen.

Heute gibt es KI-Agenten. Das sind wie fertige, intelligente Handwerker, die für Sie arbeiten. Ein Agent kann E-Mails schreiben, Daten analysieren oder Reisen buchen. Das Problem ist nur: Es gibt tausende dieser Handwerker. Manche sind super im Kochen, andere im Programmieren, wieder andere können nur sehr einfache Aufgaben.

Wenn Sie jetzt sagen: „Ich möchte eine Party planen, bei der ich die Gäste einlade, das Essen bestelle und eine Playlist erstelle", wie finden Sie den perfekten Handwerker dafür?

Das ist genau das Problem, das die Forscher in diesem Papier mit AgentSelect lösen wollen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der Dschungel der Optionen

Stellen Sie sich einen riesigen Supermarkt vor, in dem es 100.000 verschiedene Werkzeugkästen gibt. Jeder Kasten enthält einen anderen Computer-Chip (das „Gehirn" des Agenten) und verschiedene Werkzeuge (z. B. einen Taschenrechner, einen Wetter-Scanner oder einen Übersetzer).

Bisher gab es keine gute Anleitung, um zu sagen: „Für diese spezifische Aufgabe ist dieser Werkzeugkasten der beste." Die bisherigen Tests haben nur geprüft, wie gut ein Chip allein ist oder wie gut ein einzelnes Werkzeug funktioniert. Aber wer den ganzen Kasten zusammenstellt, steht oft ratlos da. Es ist wie ein Dschungel aus Möglichkeiten, in dem man leicht den falschen Weg wählt.

2. Die Lösung: AgentSelect (Der perfekte Reiseleiter)

Die Forscher haben AgentSelect entwickelt. Man kann sich das wie einen intelligenten Reiseleiter vorstellen, der nicht nur sagt, wo die besten Hotels sind, sondern genau das Hotel für Ihre spezifische Reisetour findet.

  • Die Idee: Statt nur zu testen, wie gut ein Agent ist, lernen sie, wie man einen Agenten basierend auf Ihrer Geschichte (Ihrer Frage) auswählt.
  • Die Daten: Sie haben riesige Mengen an Daten gesammelt (über 111.000 Fragen und 107.000 Agenten-Kombinationen). Sie haben diese Daten so aufbereitet, dass sie wie eine „Liebeskorrespondenz" aussehen: „Für diese Frage war dieser Agent die perfekte Antwort."

3. Wie funktioniert das? (Die drei Teile des Puzzles)

Um den Reiseleiter zu trainieren, haben sie drei verschiedene Arten von „Lektionen" zusammengestellt:

  • Teil 1: Der reine Denker (LLM-only). Hier geht es nur um das Gehirn. Welcher KI-Modell-Typ ist gut für Matheaufgaben? Welcher für kreatives Schreiben?
  • Teil 2: Der Werkzeug-Sammler (Toolkit-only). Hier geht es nur um die Werkzeuge. Welche Werkzeuge braucht man, um eine Reise zu buchen? (Flugbuchung, Hotel, Wetter).
  • Teil 3: Die Kombination (Compositional Agents). Das ist das Wichtigste! Hier lernen sie, wie man Gehirn und Werkzeuge perfekt kombiniert. Wie ein Koch, der nicht nur gute Zutaten (Werkzeuge) hat, sondern auch ein Kochbuch (Gehirn), das genau weiß, wie man sie mischt.

4. Die große Entdeckung: Nicht jeder ist ein Star

Die Forscher haben etwas Überraschendes herausgefunden. In der Welt der KI-Agenten gibt es keine „Superstars", die immer alles können.

  • Früher dachte man: „Der beliebteste Agent ist immer der beste." (Wie ein berühmter Schauspieler, der in jedem Film mitspielt).
  • Jetzt wissen wir: Die meisten Aufgaben sind so speziell, dass man einen ganz bestimmten, vielleicht weniger bekannten Agenten braucht. Es ist wie bei einem Schneemann: Für einen normalen Schneemann braucht man Schnee und eine Karotte. Für einen Schneemann, der im Weltraum stehen soll, braucht man spezielle Materialien. Der „beliebteste" Agent ist oft nicht der richtige für Ihre spezielle, einmalige Aufgabe.

5. Warum ist das wichtig?

Mit AgentSelect können wir in Zukunft eine App bauen, in der Sie einfach sagen: „Ich brauche einen Agenten, der meine Steuererklärung macht und dabei die neuesten Gesetze kennt."

Das System sucht dann nicht mehr blind herum, sondern schlägt Ihnen sofort die perfekte Kombination aus Gehirn und Werkzeugen vor – ganz ohne dass Sie wissen müssen, wie die Technik dahinter funktioniert. Es demokratisiert die KI: Jeder kann sich einen maßgeschneiderten Assistenten zusammenstellen, ohne Experte zu sein.

Zusammenfassung in einem Satz

AgentSelect ist wie ein hochintelligenter Personal Trainer für KI-Agenten: Er schaut sich Ihre Ziele an und stellt Ihnen genau das Team aus Gehirn und Werkzeugen zusammen, das Sie brauchen, um Ihre Aufgabe perfekt zu erledigen – und das, ohne dass Sie selbst ein Experte für Computertechnik sein müssen.