Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ADP (Agent Data Protocol，智能体数据协议) 的新工具。为了让你轻松理解，我们可以把大语言模型（LLM）训练成“智能体”（能像人一样操作电脑、浏览网页、写代码的 AI）的过程，想象成培养一名全能超级管家。

1. 核心问题：为什么培养“超级管家”这么难？

想象一下，你想培养一个能帮你做所有事的管家。

你有一本菜谱（数据集 A），教他怎么做中餐，但格式是手写的，字迹潦草。
你有一本维修手册（数据集 B），教他怎么修家电，但全是英文图表。
你有一本旅游指南（数据集 C），教他怎么带路，但用的是录音带。

虽然这些资料里都有很多有用的知识，但因为格式太乱、语言不通、标准不一，你很难把它们混在一起教给管家。如果你想让他既会做饭又会修车，你就得花大量精力去把每本书都重新抄写一遍，翻译成同一种语言，再重新排版。这就是目前 AI 研究面临的困境：数据虽然多，但太分散，无法统一使用。

2. 解决方案：ADP 是什么？

ADP 就是那个“万能翻译官”和“标准化格式转换器”。

作者们设计了一种通用的“语言”（协议），不管原来的数据是菜谱、维修手册还是旅游指南，ADP 都能把它们瞬间转换成统一的标准格式。

原来的混乱状态：
- 数据 A：[动作：切菜，观察：菜切好了]
- 数据 B：[点击按钮，网页显示：维修完成]
- 数据 C：[输入代码，屏幕输出：错误]
- （格式五花八门，AI 学起来很晕）
ADP 统一后的状态：
ADP 规定所有数据都变成两种核心元素：
1. 动作 (Action)：AI 做了什么？（比如：调用 API、写代码、说话）
2. 观察 (Observation)：环境反馈了什么？（比如：网页内容、代码运行结果、用户指令）
不管原来是什么数据，经过 ADP 处理后，都变成了：
- [动作：写代码，内容：print("Hello")]
- [观察：环境反馈，内容：Hello World]

3. 这个协议带来了什么好处？

A. 像“乐高积木”一样灵活

以前，如果你想把“修车数据”教给一个“写代码的 AI"，你需要专门写一个转换器，把修车数据变成代码 AI 能懂的样子。
有了 ADP，你只需要做两步：

第一步：把修车数据扔进 ADP，它自动变成标准积木（一次搞定）。
第二步：把标准积木扔给任何 AI 框架（写代码的、修电脑的、聊天的），它们都能直接吃进去。

比喻：以前是“每个国家都要自己修路才能通车”；现在是“大家都用国际标准集装箱”，不管卡车（AI 模型）是什么牌子的，只要装上集装箱（ADP 数据）就能跑。

B. 效果惊人：1+1 > 2

论文做了一个实验，把 13 个不同的数据集（有的教写代码，有的教上网，有的教用工具）全部用 ADP 统一后，混合在一起训练 AI。

结果：AI 的能力大幅提升，平均提高了 20%。
神奇之处：这个 AI 没有专门针对某个领域（比如只学修车）进行微调，但它学会了举一反三。它既能在写代码任务中表现出色，也能在网页浏览任务中游刃有余。这说明，混合不同领域的知识，能让 AI 变得更聪明、更通用。

C. 省去了重复造轮子

如果没有 ADP，如果有 100 个数据集和 100 个 AI 框架，研究人员就需要写 $100 \times 100 = 10,000$ 个转换器。
有了 ADP，只需要写 $100 + 100 = 200$ 个转换器（100 个把数据转成标准，100 个把标准转给框架）。
比喻：以前是“每个人都要学 100 种方言才能和邻居聊天”；现在是“大家都学一种普通话”，沟通成本瞬间降低。

4. 总结

这篇论文的核心思想就是：不要为了数据格式发愁，我们要建立一套通用的“普通话”（ADP）。

过去：数据像一堆散落在世界各地的方言，很难整合。
现在：ADP 把它们都翻译成了“普通话”。
未来：只要有了这套协议，研究人员可以轻松地混合各种数据，训练出更强大、更通用的 AI 智能体，而且所有人都能免费使用这些标准化的数据。

这就好比在 AI 的世界里，ADP 建立了一个通用的“数据高速公路”，让所有的知识都能顺畅地流动，最终让 AI 智能体真正变得像人类一样博学多才。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了代理数据协议（Agent Data Protocol, ADP），旨在解决大语言模型（LLM）智能体（Agent）在大规模监督微调（SFT）中面临的数据碎片化问题。以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

尽管互联网上存在大量用于预训练的数据，但智能体（Agent）的高质量后训练数据却相对稀缺且难以利用。

数据碎片化：现有的智能体训练数据集（如代码生成、网页浏览、软件工程等）分散在不同的来源，采用异构的格式、工具定义和接口。
工程瓶颈：由于缺乏统一标准，研究人员在整合多个数据集进行训练时，需要为每个“数据集 - 智能体框架”对编写定制化的转换代码（ $O(D \times A)$ 的二次方复杂度），导致工程成本高昂，难以规模化。
现状：尽管已有许多数据集（如 SWE-Gym, Mind2Web 等），但由于格式不统一，大规模跨域混合训练（Cross-domain training）在学术界仍属罕见，限制了智能体能力的泛化。

2. 方法论 (Methodology)

作者提出了 ADP (Agent Data Protocol)，一种轻量级的表示语言，作为不同格式数据集与下游统一训练管道之间的“通用语”（Interlingua）。

2.1 ADP 核心设计

ADP 基于 Pydantic 模式定义，将智能体的交互轨迹（Trajectory）标准化为以下结构：

Trajectory (轨迹)：包含 ID 和交替出现的动作（Actions）与观察（Observations）序列。
Actions (动作)：
- API Action：结构化的工具调用（函数名、参数、描述）。
- Code Action：跨编程语言的代码生成与执行（语言、代码内容、描述）。
- Message Action：智能体与用户的自然语言交互。
Observations (观察)：
- Text Observation：来自用户或环境的文本反馈。
- Web Observation：网页状态，包含 HTML、无障碍树（axtree）、URL、视口大小及截图。

2.2 转换管道 (Conversion Pipeline)

ADP 采用“枢纽 - 辐条”（Hub-and-Spoke）架构，将转换复杂度从二次方降低为线性：

Raw $\to$ ADP：将 13 个现有的异构数据集（如 Code-Feedback, SWE-Gym 等）转换为统一的 ADP 格式。每个数据集只需转换一次。
ADP $\to$ SFT：将标准化的 ADP 数据转换为特定智能体框架（如 OpenHands, SWE-Agent, AgentLab）所需的微调格式。每个框架只需编写一个转换脚本。
质量保证：通过自动化验证确保工具调用格式正确、思考过程（Thought）与动作配对等。

2.3 数据集构建

基于上述管道，作者构建了 ADP Dataset V1，包含 130 万条 训练轨迹，涵盖了编码、软件工程、API 工具使用和网页浏览等多个领域。

3. 关键贡献 (Key Contributions)

提出 ADP 协议：首个通用的智能体数据表示标准，解决了异构数据整合的难题，实现了“一次转换，多处复用”。
大规模数据集发布：发布了目前公开最大的智能体训练数据集（1.3M 轨迹），并开源了所有转换代码和脚本。
验证跨域迁移能力：证明了使用统一 ADP 数据进行混合训练，能显著提升智能体在单一领域任务上的表现，且优于仅使用单一领域数据的微调。
工程效率提升：将数据集与智能体框架的适配成本从 $O(D \times A)$ 降低至 $O(D + A)$ ，极大地降低了社区开发可复现智能体的门槛。

4. 实验结果 (Results)

作者在 7B、14B 和 32B 参数的 Qwen2.5-Coder 模型上，针对 OpenHands、SWE-Agent 和 AgentLab 三个框架进行了实验，并在 SWE-Bench、WebArena、AgentBench 和 GAIA 等基准测试中评估。

性能显著提升：
- 在 SWE-Bench (Verified) 上，7B 模型从 0.4% 提升至 20.2%；14B 模型从 2.0% 提升至 34.4%（超越 Claude 3.5 Sonnet 的 33.6%）；32B 模型达到 40.3%。
- 在 WebArena 上，7B 模型从 4.5% 提升至 21.0%。
- 在 AgentBench OS 上，7B 模型从 3.5% 提升至 27.1%。
- 平均性能提升约为 20%，且无需针对特定领域进行微调。
跨任务迁移 (Cross-Task Transfer)：
- 对比实验显示，使用 ADP 混合数据训练的智能体，在目标任务上的表现优于仅使用单一领域数据（如仅用 SWE-smith）训练的智能体。
- 例如，在 SWE-Bench 上，ADP 训练的 Qwen-3-8B 达到 16.6%，而仅用 SWE-smith 数据仅为 11.0%。这证明了多领域数据混合训练能带来更强的泛化能力。
可扩展性：实验表明，随着模型参数量的增加，ADP 训练带来的性能增益呈单调递增趋势。

5. 意义与影响 (Significance)

降低门槛：ADP 通过标准化数据格式，消除了智能体研究中重复的工程工作，使得大规模、可复现的智能体训练成为可能。
推动社区发展：开源的协议和数据集鼓励社区贡献新数据和新框架，加速了智能体领域的进步。
未来方向：论文指出未来可扩展至多模态（图像、屏幕录制），并将“协议”思想应用于评估和环境设置，进一步统一智能体研究的生态。

总结：这篇论文不仅提出了一个解决数据碎片化的技术方案（ADP），还通过实证研究证明了统一、多样化的数据混合训练是提升 LLM 智能体性能的关键路径，为下一代通用智能体的训练奠定了重要的数据基础设施。