SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

发布于 2026-03-10

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SkillsBench 的新项目，它就像是一个专门用来测试“智能助手”（AI Agent）能不能真正学会并运用“技能包”的大型考试中心。

为了让你更容易理解，我们可以把 AI 模型想象成刚毕业的天才大学生，把“技能（Skills）”想象成工作手册或操作指南。

1. 核心问题：天才学生需要“说明书”吗？

现在的 AI 模型（像 Claude、Gemini、GPT 等）非常聪明，像是一个博闻强记的天才大学生。但是，当它们面对具体的、复杂的现实任务时（比如“分析一家公司的财务报表”或“修复一个特定的软件漏洞”），它们往往缺乏具体的操作经验。

这就好比让一个懂物理的大学生去修一辆法拉利，他懂引擎原理，但可能不知道这辆车的特定螺丝怎么拧。这时候，如果给他一本专门针对法拉利的维修手册（即“技能包”），他能不能修得更好？

SkillsBench 的目的就是回答这个问题： 给 AI 一本“操作手册”，真的能帮它把活干得更好吗？

2. 他们做了什么？（一场大型实验）

研究团队设计了一场超级考试：

84 道难题：涵盖了 11 个领域，从写代码、看医疗报告、分析金融数据到制造机器人控制。
7 种不同的“学生”：测试了 7 种不同型号的 AI 模型（有的像普通本科生，有的像顶尖博士生）。
三种考试模式：
1. 裸考（No Skills）：不给任何手册，全靠 AI 自己的脑子。
2. 带“官方秘籍”考试（Curated Skills）：给 AI 一本由人类专家精心编写的、步骤清晰的“操作手册”。
3. 自己写“秘籍”考试（Self-Generated Skills）：不给手册，让 AI 自己先写一本“我觉得有用的手册”，然后再照着做。

3. 惊人的发现（考试结果）

🏆 发现一：人类写的“官方秘籍”效果拔群

结果：当 AI 拿到了人类专家编写的“操作手册”后，平均通过率提高了 16.2%。
比喻：这就像给一个懂理论的学生发了一本《法拉利维修实战指南》，他的修车成功率直接飙升。
领域差异：
- 在医疗和制造领域，效果最明显（提升幅度高达 50% 以上）。因为这些领域有很多死板的流程，AI 自己很难猜对，但有了手册就一目了然。
- 在软件工程领域，提升反而较小。因为 AI 本身就很擅长写代码，手册带来的额外帮助有限。

📉 发现二：AI 自己写的“秘籍”不仅没用，甚至有害

结果：让 AI 自己先写一本“操作手册”再去做题，平均成绩没有提升，甚至下降了。
比喻：这就像让那个天才大学生自己写一本“维修指南”，结果他写出来的指南全是错的或者模棱两可的。他照着自己写的错指南去修车，反而把车修坏了。
结论：AI 目前还无法可靠地生成它自己真正需要的“专业知识”。人类专家的经验和精心整理的步骤，是 AI 目前无法替代的。

📏 发现三：手册越“精简”越好

结果：那些只有 2-3 个核心步骤的“小册子”，比那种几百页的“百科全书”效果好得多。
比喻：给司机一张“红绿灯路口右转三步走”的卡片，比给他一本《交通法规大全》更能让他快速通过路口。太厚的书会让 AI 看得晕头转向，找不到重点。

🚀 发现四：小模型 + 好手册 = 大模型

结果：一个能力较弱的 AI（小模型），如果配上好的“操作手册”，它的表现可以媲美没有手册的顶级 AI（大模型）。
比喻：一个普通实习生，拿着大师的“独门秘籍”，干活的效果可能比一个没带笔记的资深专家还要好。

4. 总结与启示

这篇论文告诉我们一个很朴素的道理：
AI 很聪明，但它需要“脚手架”。

不要指望 AI 自己发明知识：让它自己瞎编“操作指南”是行不通的。
人类专家的价值依然巨大：我们需要人类去编写那些结构清晰、步骤明确的“技能包”，AI 才能发挥最大威力。
少即是多：给 AI 的信息要精准、简洁，不要堆砌无关的废话。

一句话总结：
SkillsBench 证明了，给 AI 配上人类精心编写的“操作说明书”，能让它从“懂理论的天才”变成“能解决实际问题的专家”；但让 AI 自己写说明书，它只会把自己绕晕。未来的 AI 应用，关键在于人类如何把专业知识封装成 AI 能读懂的“技能包”。

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. 核心问题：天才学生需要“说明书”吗？

2. 他们做了什么？（一场大型实验）

3. 惊人的发现（考试结果）

🏆 发现一：人类写的“官方秘籍”效果拔群

📉 发现二：AI 自己写的“秘籍”不仅没用，甚至有害

📏 发现三：手册越“精简”越好

🚀 发现四：小模型 + 好手册 = 大模型

4. 总结与启示

SkillsBench 技术总结

1. 研究背景与问题定义

2. 方法论：SkillsBench 基准构建

2.1 核心架构

2.2 任务与技能规范

3. 主要发现与结果

3.1 精选 Skills 显著提升性能，但存在领域差异

3.2 智能体无法可靠地自我生成有效技能

3.3 技能设计原则：少即是多

3.4 模型规模与 Skills 的互补性

3.5 不同智能体框架（Harness）的差异

4. 关键贡献

5. 意义与启示

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. 核心问题：天才学生需要“说明书”吗？

2. 他们做了什么？（一场大型实验）

3. 惊人的发现（考试结果）

🏆 发现一：人类写的“官方秘籍”效果拔群

📉 发现二：AI 自己写的“秘籍”不仅没用，甚至有害

📏 发现三：手册越“精简”越好

🚀 发现四：小模型 + 好手册 = 大模型

4. 总结与启示

SkillsBench 技术总结

1. 研究背景与问题定义

2. 方法论：SkillsBench 基准构建

2.1 核心架构

2.2 任务与技能规范

3. 主要发现与结果

3.1 精选 Skills 显著提升性能，但存在领域差异

3.2 智能体无法可靠地自我生成有效技能

3.3 技能设计原则：少即是多

3.4 模型规模与 Skills 的互补性

3.5 不同智能体框架（Harness）的差异

4. 关键贡献

5. 意义与启示

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers