SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
Le benchmark SkillsBench évalue l'efficacité des compétences d'agents sur 86 tâches et révèle que, bien que les compétences curatées améliorent significativement les performances moyennes, leur impact varie considérablement selon les domaines et que les modèles ne parviennent pas actuellement à générer de manière fiable les compétences dont ils bénéficieraient.
Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs