想象你是一位美食评论家，正在评测一家新餐厅。厨师递给你一张评分卡，上面写着：“这顿饭得分为 9.5 分（满分 10 分）。”但厨师拒绝向你展示实际的菜肴、食谱，或是他们如何得出该分数的笔记。他们只是说：“相信我，就是 9.5 分。”

现在，想象另一位评论家品尝了完全相同的菜肴，却给出了 6.0 分。在不查看菜肴或食谱的情况下，你无法判断谁是对的。第一位评论家是否使用了不同的评分标准？他们是否忽略了烤焦的吐司？他们是否将甜点算作了主菜的一部分？

这正是**Rollout Cards（展开记录卡）**旨在解决的人工智能“智能体”（能够执行编写代码、浏览网页或解决数学问题等任务的智能计算机程序）领域的问题。

以下是该论文内容的简要拆解，使用了日常类比：

问题：“黑盒”分数

目前，当研究人员发布关于人工智能智能体的成果时，他们通常只分享最终分数（即那个"9.5 分”），而丢弃了展开记录（rollout record）。

展开记录：将其视为人工智能执行任务时的完整视频录像。它包含了它采取的每一步、点击的每一个工具、犯下的每一个错误、耗时多久，以及它是否崩溃或卡住。
问题所在：不同的研究团队使用不同的“规则”将这段录像转化为分数。
- 团队 A 可能会说：“如果人工智能崩溃了，我们就忽略那次尝试。”
- 团队 B 可能会说：“如果人工智能崩溃了，那就算作零分。”
- 团队 C 可能会说：“我们只计算最终答案，忽略到达那里所经历的 50 个步骤。”

该论文发现，在他们检查的 50 个流行人工智能研究仓库中，没有任何一个在报告主要分数的同时，也报告了多少次尝试失败或崩溃。这就像一支运动队说：“我们赢了 3 场比赛！”却隐瞒了他们输了 10 场、只计算了赢下的 3 场这一事实。

证据：规则改变游戏

作者审计了 50 种不同的人工智能工具，发现了37 个具体案例，在这些案例中，改变“规则手册”完全改变了分数，尽管人工智能所做的完全相同。

"MMLU"示例：同一个人工智能模型（LLaMA-65B）在一套规则下得分为63.7，在另一套规则下得分为48.8。仅仅因为分数的计算方式不同，就导致了巨大的差异，而非人工智能本身发生了变化。
"SWE-bench"示例：在软件工程任务中，是否将“失败的尝试”计入总数还是将其丢弃，会使成功率变化15.6 个百分点。
"MLE-Bench"示例：取决于你将“通过”定义为获得金牌还是仅仅及格，同一批人工智能提交的通过率从34.2% 降至 13.3%。

论文认为，如果没有视频录像（展开记录），我们就无法判断人工智能是否真的更优秀，还是研究人员只是使用了更宽松的规则手册。

解决方案：“展开记录卡”

为了解决这个问题，作者提出了一种名为**Rollout Card（展开记录卡）**的新标准。

将展开记录卡想象为一个透明且防篡改的食谱盒，你必须将其与最终菜肴一起提供。它包含：

完整视频：人工智能行动、错误和时间的完整记录。
规则手册：明确声明分数是如何计算的（例如，“我们忽略了崩溃”或“我们计算了每个 token"）。
“缺失部分”清单：一份诚实的说明，指出“由于隐私原因我们无法分享完整视频，以下是我们确切删除的内容”。

这使得其他科学家能够查看相同的视频并提出不同的问题。也许原始论文只关心“它是否完成了任务？”，但一位新研究人员想问“它是否花费了太多资金？”或“它是否进行了危险的工具调用？”。有了展开记录卡，他们就可以回答这些问题，而无需重新运行昂贵的实验。

他们实际做了什么（实验）

作者不仅讨论了这一点，还使用真实数据进行了测试：

重新发现隐藏见解：他们选取了四个现有的公开数据集（来自 GAP、MAESTRO、COPRA 和 Tree-of-Thought 等工具），这些数据集此前已发布。通过应用展开记录卡方法，他们发现了原始论文遗漏的新事实。
- 示例：他们发现，20% 在文本中看似“安全”的人工智能回复，实际上在后台进行了被禁止的工具调用。原始分数忽略了这一点，因为他们只查看了文本。
- 示例：他们发现，在多智能体团队中，“失败”实际上涉及的协调工作比“成功”多得多，这表明额外的工作并不总是意味着更好的答案。
重新评分相同的工作：他们获取了公开的人工智能提交内容（如代码补丁或数学答案），并使用不同的规则手册重新评分。
- 结果：仅改变评分规则，就使报告的分数变化高达20.9 个百分点。在某些情况下，这甚至颠倒了排名，使一个“较差”的人工智能仅仅因为规则手册的改变而看起来像是“赢家”。

核心结论

该论文得出结论，仅发布分数就像发布期末考试成绩却不提供试卷一样。它隐藏了重要的细节。

通过引入展开记录卡，作者希望使人工智能研究具有可复现性。他们已经发布了一个免费的开源工具（名为ERGON）以及21 个公开数据集（展开记录卡），涵盖软件工程、网页浏览和数学等任务。这允许任何人检查分数背后的“视频录像”，确保当我们说人工智能很聪明时，我们确实知道我们是如何以及为何测量它的。

该论文并未声称：

它并未声称这本身就能使人工智能更安全或更强大。
它并未声称这解决了所有隐私问题（你仍然需要决定隐藏什么）。
它并未声称这是一种训练人工智能的新方法；它是一种报告和审计人工智能训练结果的新方法。

技术摘要：Rollout Cards（推演卡）：智能体研究的可复现性标准

问题陈述

该论文指出，智能体研究中正出现一场严重的可复现性危机，这与机器学习和强化学习历史上的问题如出一辙。当前的实践优先发布报告分数（例如准确率、通过率），却丢弃了底层的推演记录（智能体与环境交互的完整轨迹）以及用于计算这些分数的具体报告规则。

这种碎片化导致了两种主要的失效模式：

记录失效：推演批次仅被评分一次随后即被丢弃。由于缺乏原始记录，后续研究人员无法重新分析相同的案例以研究原始报告所遗漏的行为（例如工具调用中的安全违规、多智能体系统中的协调开销），也无法对数据应用新的视角。由于前沿模型推理成本的上升以及评估脚手架的快速过时，重新运行这些实验往往代价高昂，难以承受。
报告失效：报告规则（将推演视图转换为分数的程序）在不同框架间存在差异，且极少被披露。这导致针对完全相同的底层行为，分数出现显著差异。作者对 50 个流行代码库的审计发现，没有任何一个在头条分数之外报告失败、报错或被跳过的推演。此外，他们记录了 37 个案例，其中不同的报告规则（例如 token 计数、失败处理、提示词模板）导致了分数的剧烈波动，有时甚至改变模型排名或成功率超过 20 个百分点。

方法论

作者提出将可复现性的基本单位从“报告分数”转变为推演记录，并辅以对该记录如何处理的具体声明。

推演卡（Rollout Card）

核心贡献是推演卡，这是一种设计为“最小充分规范”的发布包。它包含：

推演记录：一个自描述归档，包含案例证据：任务规范、环境状态、智能体动作（消息、工具调用）、产物、时间戳和终端状态。关键在于，它将失败视为记录内的状态变更，而非绕过日志记录的异常。
报告规则注册表：声明应用于该记录以生成报告分数的每一个视图和报告规则，包括实现细节和版本信息。
剔除清单（Drops Manifest）：一个类型化的记录，指定特定分析读取、过滤或合并了哪些字段、行或流。这明确记录了被省略的信息，使未来研究人员能够理解所报告视图的局限性。
发布范围元数据：关于编辑、许可和访问限制的声明。

作者在开源强化学习环境 ERGON 中实现了参考规范，该环境作为一个轻量级数据集适配器，用于验证、映射和导出这些包。

实证评估

该论文通过使用公开工件进行的两项回顾性实验，验证了推演卡的效用：

RQ1（保留记录的可重用性）：作者分析了四个保留了足够推演证据的公开版本（GAP、MAESTRO、COPRA miniF2F 日志和 Tree-of-Thought）。他们计算了原始论文未报告的二次分析：
- GAP：发现 20.6% 被认证为“文本安全”的回复实际上包含被禁止的工具调用，这种失败对于仅基于文本的安全分数是不可见的。
- MAESTRO：揭示失败的多智能体运行产生的协调跨度是成功运行的 5 倍，token 消耗是 7 倍，这与“额外协作总能改善结果”的假设相矛盾。
- COPRA：显示扩展的证明搜索步骤与成功率呈负相关，表明重复步骤通常意味着恢复失败而非有用的推理。
- Tree-of-Thought：证明剪枝策略可以在显著减少浪费探索的同时保留最终奖励，而这一细微差别仅靠最终奖励指标是隐藏的。
RQ2（报告规则的影响）：作者固定基准工件（例如 GPT-4o 提交至 SWE-bench 的结果、MLE-Bench 的 Kaggle 提交），并应用替代的报告规则。
- 改变 SWE-bench 中“成功”的定义或缺失补丁的处理方式，改变了智能体之间报告的能力差距 2.3 个百分点。
- 改变 $\tau$ -bench 的评分器，使前沿模型（GPT-4o 与 Claude 3.5 Sonnet）的排名反转了 16.9 个百分点。
- 改变 MLE-Bench 的奖牌/通过定义，使通过率从 34.2% 降至 13.3%（差距为 20.9 个百分点）。

主要贡献

出版失效的诊断：对 50 个代码库的结构化审计以及 37 个报告规则差异的目录，证明了当前实践掩盖了失败，并模糊了分数差距的惯例驱动本质。
推演卡规范：一种正式的出版标准，保留推演记录，声明所应用的视图和规则，并通过剔除清单记录省略内容。
参考实现与数据发布：在 ERGON 中的开源实现，以及 21 个推演卡导出的公开发布（17 个轨迹发布导出和 4 个分析/恢复视图导出），涵盖工具使用、软件工程、安全性和搜索领域。

结果

科学复用：保留的推演记录使得发现安全失败、协调开销和搜索低效成为可能，而这些在原始报告分数中是不可见的。
惯例敏感性：实验证实报告规则并非中立；在固定证据上改变规则可将报告分数改变高达 20.9 个百分点，并反转模型排名。
透明度：推演卡结构使评估的“黑盒”透明化，允许将分歧追溯至具体的报告选择，而非模糊的智能体行为。

意义与主张

该论文主张，仅发布分数仅提取了智能体实验价值的一小部分。通过将推演记录视为可复现性的基本单位，社区可以：

缓解记录问题：无需重新运行前沿智能体，即可对现有且昂贵的数据提出新的科学问题。
缓解报告问题：使惯例驱动的分数变化变得可检查，允许研究人员区分智能体行为与用于记录它的规则。

作者在范围上保持谦逊，指出推演卡并不能防止选择性指标选择、隐私限制或编辑。相反，它们的作用是使记录、规则和省略内容可检查，确保分歧可以追溯至保留的证据、报告选择或实际的智能体行为。这项工作旨在支持未来的研究、元分析和报告规则比较，而无需新的、昂贵的前沿推演预算。

Rollout Cards: A Reproducibility Standard for Agent Research