SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Gepubliceerd 2026-03-10

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat onervaren assistent hebt. Deze assistent (een AI-agent) kan fantastisch tekst schrijven en redeneren, maar als je hem vraagt om een heel specifiek, technisch klusje te doen – zoals het repareren van een complexe machine of het analyseren van medische data – kan hij vastlopen. Hij weet wat hij moet doen, maar niet precies hoe het in de praktijk werkt.

Dit is waar Skills (Vaardigheden) om de hoek komen kijken.

Deze paper introduceert SkillsBench, een enorme testomgeving die onderzoekt of het geven van deze "handleidingen" (Skills) aan AI-agenten echt helpt, of dat het alleen maar rommel in hun hoofd veroorzaakt.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: De "Superintelligentie" zonder "Werkervaring"

Stel je een AI voor als een geniale kok die alle theorie over koken uit zijn hoofd kent. Hij weet precies wat de ingrediënten zijn en wat een recept zou moeten zijn. Maar als je hem vraagt om een heel specifiek gerecht te maken volgens de regels van een bepaald restaurant (bijvoorbeeld: "Maak een soep volgens de geheimzinnige methode van chef X"), kan hij in de war raken. Hij mist de procedurale kennis: de stap-voor-stap instructies die in de praktijk werken.

Zonder Skills: De kok probeert het zelf te raden. Soms lukt het, vaak niet.
Met Skills: Je geeft de kok een stap-voor-stap recept (de Skill) dat speciaal voor dat gerecht is geschreven.

2. De Test: SkillsBench

De onderzoekers hebben een gigantische testbaan gebouwd met 84 verschillende klussen (zoals het repareren van software, het analyseren van medische dossiers, of het plannen van robotbewegingen). Ze hebben dit gedaan voor 7 verschillende AI-modellen (de "koks").

Ze hebben elk klusje drie keer geprobeerd:

Alleen de opdracht: De AI moet het zelf weten.
Met een goed verzorgde handleiding (Curated Skills): Mensen hebben een perfecte, stap-voor-stap gids geschreven en aan de AI gegeven.
Met een zelfgeschreven handleiding (Self-Generated Skills): De AI moet eerst zelf een handleiding schrijven voordat hij aan de slag gaat.

3. De Resultaten: Wat bleek er?

🏆 De "Goede Handleidingen" werken wonderbaarlijk

Wanneer de AI een menselijk geschreven, goed verzorgde handleiding kreeg, ging het veel beter.

Het resultaat: De AI slaagde gemiddeld 16% vaker dan zonder handleiding.
De analogie: Het is alsof je de kok een perfecte receptkaart geeft. In sommige gebieden (zoals gezondheid en productie) was het verschil enorm: de AI werd daar ineens een expert. In andere gebieden (zoals software) was het verschil kleiner, omdat de AI daar al best goed in was.
Belangrijk: Soms hielp de handleiding zelfs niet, of maakte het het erger (bij 16 van de 84 klussen). Dit gebeurde als de handleiding te lang, te verwarrend of in strijd was met wat de AI al wist.

🤖 De "Zelfgeschreven Handleidingen" zijn een mislukking

Dit was de verrassendste ontdekking. Toen ze de AI vroegen: "Schrijf eerst je eigen handleiding en gebruik die dan," ging het niet beter. Soms werd het zelfs slechter.

De analogie: Het is alsof je de kok vraagt: "Schrijf eerst je eigen recept op, en gebruik dat om het gerecht te maken." De kok schrijft iets vaags of onnauwkeurigs op, en probeert het daarna. Het resultaat is vaak een rommel.
Conclusie: AI's zijn goed in het gebruiken van kennis, maar nog niet goed in het creëren van de juiste, betrouwbare instructies die ze nodig hebben. Menselijke expertise is nog steeds onmisbaar.

📏 Kwaliteit is belangrijker dan kwantiteit

De onderzoekers ontdekten dat korte, gefocuste handleidingen (2 of 3 pagina's) beter werken dan dikke, complete documenten.

De analogie: Een kok wil geen 500 pagina's theorie over koken lezen voordat hij een ei moet bakken. Hij wil een klein kaartje met de 3 belangrijkste stappen. Te veel informatie overweldigt de AI en maakt het moeilijker om de juiste stap te vinden.

🐘 Kleine modellen kunnen grote modellen inhalen

Een kleinere, snellere AI (zoals een "Haiku" model) met een goede handleiding kon vaak net zo goed presteren als een enorme, dure AI (zoals een "Opus" model) zonder handleiding.

De analogie: Een slimme leerling met een goede leraar (de handleiding) kan een examen net zo goed halen als een genie dat alleen moet werken. De handleiding compenseert voor het gebrek aan "hersencapaciteit".

4. Waarom is dit belangrijk?

Voor bedrijven en ontwikkelaars is dit een gouden tip:

Investeer in goede handleidingen: Als je AI-agenten wilt laten werken in specifieke vakgebieden (zoals ziekenhuizen of fabrieken), moet je mensen inhuren om die specifieke "Skills" te schrijven.
Laat AI het niet zelf doen: Vraag de AI niet om zijn eigen instructies te schrijven; dat werkt niet goed.
Houd het simpel: Schrijf korte, duidelijke instructies. Te veel tekst helpt niet.

Samenvattend

Deze paper zegt eigenlijk: "AI is een krachtige motor, maar hij heeft een goede chauffeur (de Skills) nodig om veilig en snel zijn bestemming te bereiken. Als je die chauffeur goed uitrust met een kaart (menselijke expertise), gaat het wonderlijk goed. Maar als je de motor vraagt om zelf de kaart te tekenen, verdwaalt hij."

De onderzoekers hebben hun data en tools openbaar gemaakt (op skillsbench.ai) zodat iedereen kan helpen om die "kaarten" voor AI's nog beter te maken.

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. Het Probleem: De "Superintelligentie" zonder "Werkervaring"

2. De Test: SkillsBench

3. De Resultaten: Wat bleek er?

🏆 De "Goede Handleidingen" werken wonderbaarlijk

🤖 De "Zelfgeschreven Handleidingen" zijn een mislukking

📏 Kwaliteit is belangrijker dan kwantiteit

🐘 Kleine modellen kunnen grote modellen inhalen

4. Waarom is dit belangrijk?

Samenvattend

1. Het Probleem

2. Methodologie: SkillsBench

3. Belangrijkste Bijdragen

4. Kernresultaten

A. Effectiviteit van Gecureerde Skills

B. Zelfgegenereerde Skills

C. Ontwerpprincipes voor Skills

D. Kosten en Efficiëntie

5. Betekenis en Conclusie

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. Het Probleem: De "Superintelligentie" zonder "Werkervaring"

2. De Test: SkillsBench

3. De Resultaten: Wat bleek er?

🏆 De "Goede Handleidingen" werken wonderbaarlijk

🤖 De "Zelfgeschreven Handleidingen" zijn een mislukking

📏 Kwaliteit is belangrijker dan kwantiteit

🐘 Kleine modellen kunnen grote modellen inhalen

4. Waarom is dit belangrijk?

Samenvattend

1. Het Probleem

2. Methodologie: SkillsBench

3. Belangrijkste Bijdragen

4. Kernresultaten

A. Effectiviteit van Gecureerde Skills

B. Zelfgegenereerde Skills

C. Ontwerpprincipes voor Skills

D. Kosten en Efficiëntie

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers