SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
이 논문은 다양한 도메인에서 에이전트 기술 (Skills) 의 효과를 체계적으로 평가하기 위해 'SkillsBench'를 제안하고, 선별된 기술이 에이전트 성능을 평균 16.2%p 향상시키지만 도메인에 따라 편차가 크며 모델이 스스로 생성한 기술은 효과가 없음을 입증했습니다.
Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs