SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Veröffentlicht 2026-03-10

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der geniale Generalist ohne Handwerkszeug

Stellen Sie sich vor, Sie haben einen Super-Intelligenz-Roboter (das ist das große Sprachmodell, z. B. von Google oder OpenAI). Dieser Roboter ist unglaublich klug. Er kann Gedichte schreiben, komplexe Mathematik lösen und in fast jeder Sprache fließend reden. Er ist wie ein Allwissender Professor, der alles über die Welt weiß.

Aber: Wenn Sie ihn in eine echte Werkstatt schicken, um ein spezifisches Problem zu lösen – sagen Sie, „Repariere diesen speziellen Industriemotor nach dem neuen Sicherheitsprotokoll" – stolpert er oft. Warum? Weil er zwar die Theorie kennt, aber nicht die Handwerksanleitung für diesen einen, speziellen Job. Er weiß nicht, welche Schraube zuerst gelöst werden muss oder welche Software-Skripte dafür nötig sind.

Bisher gab es zwei Möglichkeiten:

Den Roboter neu zu programmieren (teuer und langsam).
Ihm einfach zu sagen: „Mach es!" (funktioniert oft nicht gut genug).

Die Lösung: Die „Skills" (Fertigkeiten-Pakete)

Hier kommen die Agent Skills ins Spiel. Stellen Sie sich diese wie Rezeptbücher oder Handbücher vor, die Sie dem Roboter in die Hand drücken, bevor er anfängt zu arbeiten.

Ein „Skill" ist kein fest verdrahteter Teil des Roboters. Es ist ein lose beiliegendes Dokument (oder ein Ordner mit Skripten), das ihm Schritt-für-Schritt erklärt: „So geht man bei diesem speziellen Problem vor."
Es ist wie ein Kochbuch, das einem Koch sagt: „Für dieses spezielle Gericht musst du zuerst die Soße in dieser Reihenfolge rühren, nicht anders."

Was hat die Forschergruppe gemacht? (Der „SkillsBench"-Test)

Die Forscher wollten herausfinden: Helfen diese Handbücher wirklich? Und wenn ja, wie gut?

Sie haben einen riesigen Testlauf organisiert, den sie SkillsBench nannten.

Der Test: 84 verschiedene Aufgaben aus 11 verschiedenen Welten (von Software-Programmierung über Finanzanalyse bis hin zu medizinischen Daten).
Die Bedingungen: Sie ließen die Roboter die Aufgaben unter drei Szenarien lösen:
1. Ohne Hilfe: Der Roboter muss alles aus dem Gedächtnis wissen.
2. Mit „geprüften" Handbüchern: Der Roboter bekommt perfekt zusammengestellte, von Menschen geschriebene Anleitungen.
3. Mit „selbstgemachten" Handbüchern: Der Roboter muss sich erst selbst eine Anleitung ausdenken, bevor er die Aufgabe löst.

Die überraschenden Ergebnisse

Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

1. Die „geprüften" Handbücher sind ein Game-Changer

Wenn die Roboter gute, von Menschen geschriebene Anleitungen bekamen, wurden sie deutlich besser.

Die Zahl: Im Durchschnitt schafften sie 16 % mehr Aufgaben erfolgreich.
Der Unterschied: In manchen Bereichen (wie im Gesundheitswesen oder in der Fertigung) war der Effekt riesig (+52 % besser!). In anderen Bereichen (wie bei reiner Software-Programmierung) war der Effekt kleiner, aber immer noch positiv.
Die Metapher: Es ist wie der Unterschied zwischen einem Arzt, der nur sein Studium im Kopf hat, und einem Arzt, der direkt neben sich das aktuelle medizinische Leitfaden-Buch liegen hat. Mit dem Buch macht er viel weniger Fehler.

2. Roboter können sich keine guten Handbücher selbst schreiben

Das war die große Enttäuschung. Wenn man den Roboter bat, sich selbst eine Anleitung zu schreiben, bevor er die Aufgabe löste, wurde er nicht besser – manchmal sogar schlechter.

Warum? Die Roboter sind gut darin, Wissen abzurufen, aber schlecht darin, prozedurales Wissen (also „Wie mache ich das genau Schritt für Schritt?") kreativ und fehlerfrei zu erfinden.
Die Metapher: Es ist, als würde man einen Koch bitten, sich selbst ein Rezept für ein Gericht auszudenken, das er noch nie gekocht hat. Er wird wahrscheinlich Zutaten mischen, die nicht zusammenpassen. Ein echtes, von einem Profi geschriebenes Rezept ist viel besser.

3. Weniger ist oft mehr (Die „Goldilocks"-Regel)

Die Forscher haben herausgefunden, dass lange, dicke Handbücher die Roboter verwirren.

Das Ergebnis: Kurze, fokussierte Anleitungen (2–3 Abschnitte) funktionierten am besten. Wenn man dem Roboter ein 100-seitiges Buch gab, schaffte er weniger Aufgaben.
Die Metapher: Wenn Sie einem Schüler eine 500-seitige Anleitung geben, um eine Matheaufgabe zu lösen, liest er sie nicht. Er braucht nur die drei wichtigsten Sätze. Zu viel Information ist wie Lärm im Kopf.

4. Ein kleiner Roboter mit Anleitung kann einen großen ohne Anleitung schlagen

Ein kleinerer, weniger intelligenter Roboter (z. B. Claude Haiku), der eine gute Anleitung bekam, war oft besser als ein riesiger, super-intelligenter Roboter (z. B. Claude Opus), der keine Anleitung hatte.

Die Metapher: Ein junger Lehrling mit einem perfekten Bauplan ist besser als ein erfahrener Meister, der den Plan verloren hat.

Fazit für die Zukunft

Die Studie sagt uns: Künstliche Intelligenz braucht nicht nur mehr Intelligenz, sie braucht bessere Werkzeuge.

Wir müssen aufhören zu versuchen, die Roboter selbst zu trainieren, alles zu wissen.
Stattdessen sollten wir gute, menschliche Anleitungen (Skills) erstellen, die sie nutzen können.
Diese Anleitungen sollten kurz, präzise und auf den Punkt gebracht sein.

Zusammengefasst: Die Zukunft der KI liegt nicht darin, den Roboter noch schlauer zu machen, sondern ihm die richtigen Werkzeugkästen in die Hand zu geben. Aber diese Werkzeugkästen müssen von Menschen gebaut werden, nicht von den Robotern selbst.

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Das große Problem: Der geniale Generalist ohne Handwerkszeug

Die Lösung: Die „Skills" (Fertigkeiten-Pakete)

Was hat die Forschergruppe gemacht? (Der „SkillsBench"-Test)

Die überraschenden Ergebnisse

1. Die „geprüften" Handbücher sind ein Game-Changer

2. Roboter können sich keine guten Handbücher selbst schreiben

3. Weniger ist oft mehr (Die „Goldilocks"-Regel)

4. Ein kleiner Roboter mit Anleitung kann einen großen ohne Anleitung schlagen

Fazit für die Zukunft

1. Problemstellung

2. Methodik: SkillsBench

Aufbau des Benchmarks

Evaluierungs-Design

Experimentelles Setup

3. Wichtige Beiträge

4. Ergebnisse

A. Wirksamkeit kuratierter Skills

B. Selbstgenerierte Skills

C. Design-Faktoren von Skills

D. Fehleranalyse

5. Bedeutung und Implikationen

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Das große Problem: Der geniale Generalist ohne Handwerkszeug

Die Lösung: Die „Skills" (Fertigkeiten-Pakete)

Was hat die Forschergruppe gemacht? (Der „SkillsBench"-Test)

Die überraschenden Ergebnisse

1. Die „geprüften" Handbücher sind ein Game-Changer

2. Roboter können sich keine guten Handbücher selbst schreiben

3. Weniger ist oft mehr (Die „Goldilocks"-Regel)

4. Ein kleiner Roboter mit Anleitung kann einen großen ohne Anleitung schlagen

Fazit für die Zukunft

1. Problemstellung

2. Methodik: SkillsBench

Aufbau des Benchmarks

Evaluierungs-Design

Experimentelles Setup

3. Wichtige Beiträge

4. Ergebnisse

A. Wirksamkeit kuratierter Skills

B. Selbstgenerierte Skills

C. Design-Faktoren von Skills

D. Fehleranalyse

5. Bedeutung und Implikationen

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers