原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象你是一位美食评论家,正在评测一家新餐厅。厨师递给你一张评分卡,上面写着:“这顿饭得分为 9.5 分(满分 10 分)。”但厨师拒绝向你展示实际的菜肴、食谱,或是他们如何得出该分数的笔记。他们只是说:“相信我,就是 9.5 分。”
现在,想象另一位评论家品尝了完全相同的菜肴,却给出了 6.0 分。在不查看菜肴或食谱的情况下,你无法判断谁是对的。第一位评论家是否使用了不同的评分标准?他们是否忽略了烤焦的吐司?他们是否将甜点算作了主菜的一部分?
这正是**Rollout Cards(展开记录卡)**旨在解决的人工智能“智能体”(能够执行编写代码、浏览网页或解决数学问题等任务的智能计算机程序)领域的问题。
以下是该论文内容的简要拆解,使用了日常类比:
问题:“黑盒”分数
目前,当研究人员发布关于人工智能智能体的成果时,他们通常只分享最终分数(即那个"9.5 分”),而丢弃了展开记录(rollout record)。
- 展开记录:将其视为人工智能执行任务时的完整视频录像。它包含了它采取的每一步、点击的每一个工具、犯下的每一个错误、耗时多久,以及它是否崩溃或卡住。
- 问题所在:不同的研究团队使用不同的“规则”将这段录像转化为分数。
- 团队 A 可能会说:“如果人工智能崩溃了,我们就忽略那次尝试。”
- 团队 B 可能会说:“如果人工智能崩溃了,那就算作零分。”
- 团队 C 可能会说:“我们只计算最终答案,忽略到达那里所经历的 50 个步骤。”
该论文发现,在他们检查的 50 个流行人工智能研究仓库中,没有任何一个在报告主要分数的同时,也报告了多少次尝试失败或崩溃。这就像一支运动队说:“我们赢了 3 场比赛!”却隐瞒了他们输了 10 场、只计算了赢下的 3 场这一事实。
证据:规则改变游戏
作者审计了 50 种不同的人工智能工具,发现了37 个具体案例,在这些案例中,改变“规则手册”完全改变了分数,尽管人工智能所做的完全相同。
- "MMLU"示例:同一个人工智能模型(LLaMA-65B)在一套规则下得分为63.7,在另一套规则下得分为48.8。仅仅因为分数的计算方式不同,就导致了巨大的差异,而非人工智能本身发生了变化。
- "SWE-bench"示例:在软件工程任务中,是否将“失败的尝试”计入总数还是将其丢弃,会使成功率变化15.6 个百分点。
- "MLE-Bench"示例:取决于你将“通过”定义为获得金牌还是仅仅及格,同一批人工智能提交的通过率从34.2% 降至 13.3%。
论文认为,如果没有视频录像(展开记录),我们就无法判断人工智能是否真的更优秀,还是研究人员只是使用了更宽松的规则手册。
解决方案:“展开记录卡”
为了解决这个问题,作者提出了一种名为**Rollout Card(展开记录卡)**的新标准。
将展开记录卡想象为一个透明且防篡改的食谱盒,你必须将其与最终菜肴一起提供。它包含:
- 完整视频:人工智能行动、错误和时间的完整记录。
- 规则手册:明确声明分数是如何计算的(例如,“我们忽略了崩溃”或“我们计算了每个 token")。
- “缺失部分”清单:一份诚实的说明,指出“由于隐私原因我们无法分享完整视频,以下是我们确切删除的内容”。
这使得其他科学家能够查看相同的视频并提出不同的问题。也许原始论文只关心“它是否完成了任务?”,但一位新研究人员想问“它是否花费了太多资金?”或“它是否进行了危险的工具调用?”。有了展开记录卡,他们就可以回答这些问题,而无需重新运行昂贵的实验。
他们实际做了什么(实验)
作者不仅讨论了这一点,还使用真实数据进行了测试:
重新发现隐藏见解:他们选取了四个现有的公开数据集(来自 GAP、MAESTRO、COPRA 和 Tree-of-Thought 等工具),这些数据集此前已发布。通过应用展开记录卡方法,他们发现了原始论文遗漏的新事实。
- 示例:他们发现,20% 在文本中看似“安全”的人工智能回复,实际上在后台进行了被禁止的工具调用。原始分数忽略了这一点,因为他们只查看了文本。
- 示例:他们发现,在多智能体团队中,“失败”实际上涉及的协调工作比“成功”多得多,这表明额外的工作并不总是意味着更好的答案。
重新评分相同的工作:他们获取了公开的人工智能提交内容(如代码补丁或数学答案),并使用不同的规则手册重新评分。
- 结果:仅改变评分规则,就使报告的分数变化高达20.9 个百分点。在某些情况下,这甚至颠倒了排名,使一个“较差”的人工智能仅仅因为规则手册的改变而看起来像是“赢家”。
核心结论
该论文得出结论,仅发布分数就像发布期末考试成绩却不提供试卷一样。它隐藏了重要的细节。
通过引入展开记录卡,作者希望使人工智能研究具有可复现性。他们已经发布了一个免费的开源工具(名为ERGON)以及21 个公开数据集(展开记录卡),涵盖软件工程、网页浏览和数学等任务。这允许任何人检查分数背后的“视频录像”,确保当我们说人工智能很聪明时,我们确实知道我们是如何以及为何测量它的。
该论文并未声称:
- 它并未声称这本身就能使人工智能更安全或更强大。
- 它并未声称这解决了所有隐私问题(你仍然需要决定隐藏什么)。
- 它并未声称这是一种训练人工智能的新方法;它是一种报告和审计人工智能训练结果的新方法。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。