原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
想象一下,你正在举办一场规模宏大的烹饪比赛。你有成千上万名厨师(AI 模型)试图做出完美的菜肴,但“完美”是主观的。一位评委可能在意咸淡,另一位在意摆盘,第三位则关注烹饪时长。
过去,试图给这些菜肴打分往往一团糟。有时评委只是写下一句模糊的评语,比如“味道不错”,或者他们无休止地争论为什么某道菜比另一道菜更好。这篇论文介绍了一个名为AsymmetryZero的新系统来解决这种混乱,并测试了两种不同的聘请评委的方法。
以下是用通俗语言进行的拆解:
1. 问题:“模糊评委”的陷阱
目前,当我们测试 AI 时,通常会要求一个超级智能的 AI 来给另一个 AI 的作品打分。但如果你只是说“给这篇作文打分”,评分者可能会使用它自己隐藏的规则。它可能喜欢长篇大论,或者可能因为主题而感到困惑。这就像雇佣了一位没有检查清单的美食评论家;你永远不知道他们是在评判食物,还是仅仅在评判他们的心情。
2. 解决方案:“评估契约”
作者创建了AsymmetryZero,这基本上是一个严格的评分食谱。
与其使用模糊的提示,不如让每个任务都附带一份“契约”。这份契约就像一张详细的记分卡,上面写着:
- 我们在评什么?(例如:“厨师是否使用了盐?”)
- 如何检查?(例如:“如果出现了‘盐’这个词,给 10 分。”)
- 谁来做决定?(一位评委还是多位?)
- 及格分数是多少?
这份契约既适用于简单的 AI(仅生成文本),也适用于复杂的 AI 智能体(使用工具并执行多步操作的机器人)。有趣的是,同一份契约既可以用来给简单的文本机器人打分,也可以用来给复杂的机器人打分,而且分数是可以相互比较的。
3. 实验:“大评委”vs“小评委”
作者想知道:我们需要昂贵、超级聪明的评委来给这些契约打分,还是可以使用更便宜、更小的评委?
他们设置了一个测试,包含 75 个复杂任务(如解决高级数学或编程问题)。他们使用了四个不同的“参赛”AI 模型来完成任务。然后,他们使用两组不同的“评委”AI 对这些解决方案进行评分:
- 前沿陪审团(大评委): 由 5 个目前最强大、最昂贵且最聪明的 AI 模型组成的评审团。
- 紧凑陪审团(小评委): 由 5 个更小、更便宜且更快的 AI 模型组成的评审团。
4. 结果:“更便宜的评委”噪音更大
以下是他们的发现:
- 最终得分相似: 当你把所有分数加起来时,“大评委”和“小评委”通常会对谁赢得了比赛达成一致。如果某项任务通过了大评委的考核,通常也会通过小评委的考核。
- 细节很混乱: 然而,当你查看各个步骤(记分卡上的具体标准)时,小评委与大评委在 15% 到 25% 的情况下意见不一致。
- “互相指责”的问题: 最大的问题在于,小评委甚至无法彼此达成一致。
- 大评委就像一个冷静的委员会;他们几乎总是一致的(仅在 6–11% 的情况下出现分歧)。
- 小评委就像一个混乱的房间;他们不断互相争吵(在 30% 的情况下出现 3 比 2 的分歧)。
类比: 想象一下给数学考试打分。
- 大评委: 五位教授都看着答案说:“是的,这是正确的。”
- 小评委: 三位教授说“正确”,但两位说“不正确,因为字迹潦草”,尽管数学计算是正确的。他们在自相矛盾。
5. 权衡:成本 vs. 一致性
小评委极其便宜且快速。
- 成本: 它们的成本比大评委低约 97%。
- 速度: 它们比大评委快约 82%。
结论:
如果你只是想要一个快速、廉价的检查,以确认系统是否大致正常运行(比如“ Sanity Check/合理性检查”),那么小评委很棒。它们能节省一大笔钱。
但是,如果你需要确切知道某事失败的原因,或者你需要为高风险决策提供完美的审计轨迹,那么小评委就太“嘈杂”了。它们彼此间的争吵太多,无法让人信任它们处理细微差别。
总结
这篇论文认为,你如何编写评分规则(契约) 与 你聘请谁来评分 同样重要。
你可以通过使用更小、更便宜的 AI 评委来节省大量资金,但你必须接受它们会更频繁地互相争吵。如果你需要一个冷静、一致的裁决,你仍然需要昂贵、处于“前沿”的评委。如果你只需要一个大致的估算,那么便宜的评委也能胜任。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。