SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

公開日 2026-03-10

📖 1 分で読めます☕ さくっと読める

閲覧： arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手（エージェント）に『マニュアル』や『コツ』を与えると、本当に仕事が上手になるのか？」**という疑問に、大規模な実験で答えを出したものです。

タイトルは『SkillsBench（スキルベンチ）』。まるで AI の能力を測るための「試験会」のようなものです。

以下に、難しい専門用語を避け、身近な例えを使って分かりやすく解説します。

1. 背景：AI は「天才」だが「経験不足」

現代の AI（大規模言語モデル）は、本を読むのが速く、何でも知っている「天才的な学生」のような存在です。しかし、現実の職場で「特定の会社のルール」や「専門的な手順」を知らないと、失敗してしまいます。

そこで登場するのが**「Agent Skills（エージェント・スキル）」です。
これは、AI に「業務マニュアル」や「コツ集」**を渡す仕組みです。AI の頭脳（モデル）そのものを変えるのではなく、作業中にこのマニュアルを参照できるようにするのです。

例え話：
- AI（モデル）： 料理の天才シェフ。どんな食材も扱えますが、特定の店の「隠し味」や「接客ルール」は知りません。
- スキル（Skills）： その店の「レシピ本」や「マニュアル」。
- ハブ（Harness）： シェフが料理をする「キッチン」。

この研究は、「シェフにマニュアル（スキル）を渡せば、料理（タスク）が上手になるのか？」を調べる実験でした。

2. 実験の仕組み：3 つの条件でテスト

研究者たちは、84 種類の異なる仕事（医療、製造、プログラミング、金融など）を用意し、7 種類の AI を使って以下の 3 つの条件でテストしました。

マニュアルなし： 天才シェフが、何も見ずに料理を作る（基本の能力）。
人間が作ったマニュアルあり： 経験豊富な職人が書いた「完璧なマニュアル」を渡す。
AI が自分で作ったマニュアルあり： マニュアルがない状態で、「まずはマニュアルを書いてから料理しなさい」と指示する。

3. 驚きの結果：何が分かった？

① 人間が作ったマニュアルは「劇的効果」がある！

「マニュアルあり」の条件では、AI の成功率が平均で 16% 以上も上がりました。
特に、医療や製造業のような、専門的な手順が重要な分野では、成功率が50% 以上も跳ね上がりました。

例え話： 天才シェフに「この店では、卵は必ず 3 回混ぜてから焼く」というマニュアルを渡したら、以前は焦がしていた料理が完璧にできるようになった、という感じです。
ただし： 分野によって効果は異なります。プログラミングのような分野では、AI 自体の能力が高いため、マニュアルの効果は少し小さめでした。

② AI が自分で作ったマニュアルは「逆効果」だった

「AI に自分でマニュアルを書かせてから作業させたら、成功率はむしろ下がりました（平均で 1.3% 低下）。」
AI は「マニュアルを書くこと」自体は得意ですが、「自分が本当に必要とする、正確な手順」を自分で生み出すのは苦手なことが分かりました。

例え話： 天才シェフに「まずはレシピを考えてから料理しなさい」と言っても、シェフは「塩は少し多め」とか「適当に混ぜて」といった曖昧で役に立たないレシピを書いてしまい、結局料理が失敗しました。

③ マニュアルは「長すぎるとダメ」

マニュアルが分厚すぎると、AI は読むのに疲れてしまい、逆に失敗します。

ベストな量： 2〜3 枚の「要点だけ書かれたコツ集」。
ダメな量： 何百ページもある「辞書のような詳細な説明」。
例え話： 料理中に「料理大全集」を全部読まされるより、「卵は 3 回混ぜる」という付箋（ふせん）1 枚の方が、シェフの作業を助けます。

④ 小さな AI でも、マニュアルがあれば大物に勝てる

能力が少し低い AI に、良いマニュアルを渡すと、マニュアルなしの超高性能 AI よりもうまく働くことがあります。

例え話： 新人シェフに「プロの秘伝レシピ」を渡せば、マニュアルなしの天才シェフよりも美味しい料理を作れるかもしれません。

4. なぜ失敗したのか？（失敗例）

マニュアルがあっても、100% 成功するわけではありません。

マニュアルと仕事が合わない： すでに AI が得意な仕事に、余計なマニュアルを渡すと混乱します。
マニュアルが間違っている： 人間が作ったマニュアルでも、ミスがあれば AI はそのミスに従って失敗します。
時間切れ： マニュアルを読みながら作業すると、時間がかかりすぎて、時間制限内に終わらなくなることがあります。

5. まとめ：私たちが学ぶべきこと

この研究が教えてくれた最大の教訓は、**「AI を万能にする魔法の杖はないが、正しい『マニュアル』があれば、AI は驚くほど活躍する」**ということです。

企業や開発者へのアドバイス：
- AI に任せる仕事には、**「人間が書いた、具体的で簡潔なマニュアル（スキル）」**を用意しましょう。
- AI に「マニュアルを作らせて」はいけません。人間が作った知識を渡すのが一番です。
- マニュアルは「分厚い本」ではなく、「必要な手順だけ書かれた付箋」のようにシンプルにしましょう。

この「SkillsBench」という試験会は、これから AI を使う人たちが、**「どのマニュアルが役立つか」**を判断するための重要な基準となるでしょう。AI と人間の「タッグ」が、どうすれば最強になるかを示した画期的な研究です。

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. 背景：AI は「天才」だが「経験不足」

2. 実験の仕組み：3 つの条件でテスト

3. 驚きの結果：何が分かった？

① 人間が作ったマニュアルは「劇的効果」がある！

② AI が自分で作ったマニュアルは「逆効果」だった

③ マニュアルは「長すぎるとダメ」

④ 小さな AI でも、マニュアルがあれば大物に勝てる

4. なぜ失敗したのか？（失敗例）

5. まとめ：私たちが学ぶべきこと

SkillsBench: 多様なタスクにおけるエージェント・スキルの有効性評価に関する技術的サマリー

1. 問題定義と背景

2. 手法とベンチマーク設計 (SKILLSBENCH)

2.1 データセットとタスク設計

2.2 評価プロトコル

2.3 品質管理

3. 主要な結果

3.1 スキルの有効性

3.2 スキル設計の要因

3.3 エージェント・ハブの差異

4. 主要な貢献

5. 意義と結論

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

1. 背景：AI は「天才」だが「経験不足」

2. 実験の仕組み：3 つの条件でテスト

3. 驚きの結果：何が分かった？

① 人間が作ったマニュアルは「劇的効果」がある！

② AI が自分で作ったマニュアルは「逆効果」だった

③ マニュアルは「長すぎるとダメ」

④ 小さな AI でも、マニュアルがあれば大物に勝てる

4. なぜ失敗したのか？（失敗例）

5. まとめ：私たちが学ぶべきこと

SkillsBench: 多様なタスクにおけるエージェント・スキルの有効性評価に関する技術的サマリー

1. 問題定義と背景

2. 手法とベンチマーク設計 (SKILLSBENCH)

2.1 データセットとタスク設計

2.2 評価プロトコル

2.3 品質管理

3. 主要な結果

3.1 スキルの有効性

3.2 スキル設計の要因

3.3 エージェント・ハブの差異

4. 主要な貢献

5. 意義と結論

関連論文

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search