Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在举办一场规模宏大的烹饪比赛。你有成千上万名厨师（AI 模型）试图做出完美的菜肴，但“完美”是主观的。一位评委可能在意咸淡，另一位在意摆盘，第三位则关注烹饪时长。

过去，试图给这些菜肴打分往往一团糟。有时评委只是写下一句模糊的评语，比如“味道不错”，或者他们无休止地争论为什么某道菜比另一道菜更好。这篇论文介绍了一个名为AsymmetryZero的新系统来解决这种混乱，并测试了两种不同的聘请评委的方法。

以下是用通俗语言进行的拆解：

1. 问题：“模糊评委”的陷阱

目前，当我们测试 AI 时，通常会要求一个超级智能的 AI 来给另一个 AI 的作品打分。但如果你只是说“给这篇作文打分”，评分者可能会使用它自己隐藏的规则。它可能喜欢长篇大论，或者可能因为主题而感到困惑。这就像雇佣了一位没有检查清单的美食评论家；你永远不知道他们是在评判食物，还是仅仅在评判他们的心情。

2. 解决方案：“评估契约”

作者创建了AsymmetryZero，这基本上是一个严格的评分食谱。

与其使用模糊的提示，不如让每个任务都附带一份“契约”。这份契约就像一张详细的记分卡，上面写着：

我们在评什么？（例如：“厨师是否使用了盐？”）
如何检查？（例如：“如果出现了‘盐’这个词，给 10 分。”）
谁来做决定？（一位评委还是多位？）
及格分数是多少？

这份契约既适用于简单的 AI（仅生成文本），也适用于复杂的 AI 智能体（使用工具并执行多步操作的机器人）。有趣的是，同一份契约既可以用来给简单的文本机器人打分，也可以用来给复杂的机器人打分，而且分数是可以相互比较的。

3. 实验：“大评委”vs“小评委”

作者想知道：我们需要昂贵、超级聪明的评委来给这些契约打分，还是可以使用更便宜、更小的评委？

他们设置了一个测试，包含 75 个复杂任务（如解决高级数学或编程问题）。他们使用了四个不同的“参赛”AI 模型来完成任务。然后，他们使用两组不同的“评委”AI 对这些解决方案进行评分：

前沿陪审团（大评委）： 由 5 个目前最强大、最昂贵且最聪明的 AI 模型组成的评审团。
紧凑陪审团（小评委）： 由 5 个更小、更便宜且更快的 AI 模型组成的评审团。

4. 结果：“更便宜的评委”噪音更大

以下是他们的发现：

最终得分相似： 当你把所有分数加起来时，“大评委”和“小评委”通常会对谁赢得了比赛达成一致。如果某项任务通过了大评委的考核，通常也会通过小评委的考核。
细节很混乱： 然而，当你查看各个步骤（记分卡上的具体标准）时，小评委与大评委在 15% 到 25% 的情况下意见不一致。
“互相指责”的问题： 最大的问题在于，小评委甚至无法彼此达成一致。
- 大评委就像一个冷静的委员会；他们几乎总是一致的（仅在 6–11% 的情况下出现分歧）。
- 小评委就像一个混乱的房间；他们不断互相争吵（在 30% 的情况下出现 3 比 2 的分歧）。

类比： 想象一下给数学考试打分。

大评委： 五位教授都看着答案说：“是的，这是正确的。”
小评委： 三位教授说“正确”，但两位说“不正确，因为字迹潦草”，尽管数学计算是正确的。他们在自相矛盾。

5. 权衡：成本 vs. 一致性

小评委极其便宜且快速。

成本： 它们的成本比大评委低约 97%。
速度： 它们比大评委快约 82%。

结论：
如果你只是想要一个快速、廉价的检查，以确认系统是否大致正常运行（比如“ Sanity Check/合理性检查”），那么小评委很棒。它们能节省一大笔钱。

但是，如果你需要确切知道某事失败的原因，或者你需要为高风险决策提供完美的审计轨迹，那么小评委就太“嘈杂”了。它们彼此间的争吵太多，无法让人信任它们处理细微差别。

总结

这篇论文认为，你如何编写评分规则（契约） 与 你聘请谁来评分 同样重要。

你可以通过使用更小、更便宜的 AI 评委来节省大量资金，但你必须接受它们会更频繁地互相争吵。如果你需要一个冷静、一致的裁决，你仍然需要昂贵、处于“前沿”的评委。如果你只需要一个大致的估算，那么便宜的评委也能胜任。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：AsymmetryZero

问题陈述

该论文指出了当前强化学习（RL）和人工智能评估流程中的一个关键缺口：将主观的、程序性的以及特定领域的专家需求转化为可扩展的评估信号存在困难。虽然精确匹配指标足以应对确定性任务，但它们无法适用于语义性、多因素或开放式的任务。反之，开放式的大语言模型（LLM）评判往往将评分策略隐含在提示词中，导致结果不稳定且缺乏可审计性。作者认为，后训练阶段的核心挑战不仅仅是给模型打分，而是将专家需求忠实地编码到评估本身之中。

方法论：AsymmetryZero 框架

为此，作者引入了AsymmetryZero，这是一个通过稳定的评估契约将人类专家偏好操作化为语义评估的框架。

核心组件

评估契约：任务不再由单一提示词或答案键定义，而是被定义为一个便携式契约，将执行输入（提示词、参考内容）与评分输入（标准、权重、阈值）分离。
- 结构：每个标准明确声明其权重、提示词和评判者类型（ExactMatch 精确匹配或 llm-judge 大模型评判）。
- 聚合：标准层面的决策被聚合成任务得分（ $S = \sum w_i \hat{v}_i$ ）。若 $S \ge \tau$ ，则任务通过。
- 陪审团共识：对于 llm-judge 标准，由一组评判者（ $J_i$ ）进行投票。共识由严格多数决定（若 $\sum v_{ij} > |J_i|/2$ ，则 $\hat{v}_i = 1$ ）；平局则视为失败。
双重执行引擎：该框架将评估语义与执行解耦：
- Inspect：用于仅针对模型的评估。
- Harbor：用于针对智能体（Agent）的评估（具体使用 terminus2 智能体）。
- 两种引擎均消耗相同的契约，确保模型输出和智能体输出之间的得分具有可比性，并共享审计工件。
可审计性：系统生成详细的追踪记录，记录每个标准的結果、评判者投票、理由及权重贡献，从而支持对失败模式和异议的分析。

实证研究：评判能力与替代性

该论文利用 PORTEX-COMPOSITE 基准进行了一项实证研究，旨在回答较小的、更廉价的“紧凑型”陪审团是否能在不损害评估完整性的情况下替代昂贵的“前沿型”陪审团。

实验设置

任务：对 75 个前沿级任务进行评估，涉及四种求解模型（Claude Opus 4.6, GPT-5.4, Grok-4.20, Gemini-3.1-Pro）。
陪审团条件：
- 前沿型陪审团：5 个大型、最先进的开源权重模型。
- 紧凑型陪审团：5 个较小的开源权重模型。
指标：标准层面的一致性、池内分歧（异议率）、任务层面得分的稳定性以及经济效率（成本、延迟、Token 消耗）。

主要结果

标准层面的分歧：紧凑型与前沿型陪审团并非完全一致。
- 多数一致率：在不同运行中，范围介于 75.9% 至 89.6% 之间（严格公共子集：77.8%–92.1%）。
- 推论：用紧凑型评判者进行替代，会改变相当一部分语义标准的决策。
内部异议（稳定性）：紧凑型陪审团表现出显著更高的内部不稳定性。
- 3–2 分裂：前沿型陪审团的平均分裂率为 6.1%–11.5%，而紧凑型陪审团的平均分裂率为 28.7%–32.4%。
- 结论：紧凑型陪审团不仅与前沿型陪审团的分歧更多，而且彼此之间的分歧也更多。
任务层面的稳定性：尽管存在标准层面的分歧，但聚合后的任务结果往往相似。
- 相关性：前沿型与紧凑型任务得分之间的皮尔逊相关系数为 0.88（范围 0.81–0.93）。
- 得分变化：70%–87% 的被评分任务在两组之间的得分没有变化。
- 细微差别：这种稳定性显得“脆弱”，它依赖于加权求和中误差的相互抵消，而非标准层面判断的一致性。
经济效率：紧凑型陪审团提供了巨大的效率提升。
- 成本：每个标准的成本降低了 ~97%。
- 延迟：降低了 ~82%。
- Token：输出 Token 减少了 ~75%。
分歧分析：
- 响应长度：虽然较长的响应与较高的分歧率相关，但统计建模（有序混合模型）并未发现有力证据表明紧凑型陪审团比前沿型陪审团对长度更敏感。分歧的主要驱动因素是陪审团类型本身（紧凑型陪审团本质上噪声更大）。
- 失败模式：定性审查表明，紧凑型陪审团失败的原因与前沿型陪审团相同（例如：字面主义与实质内容的冲突），但它们应用标准的一致性较差。

主要贡献

操作框架：AsymmetryZero 提供了一个具体的系统，将专家知识转化为可审计、可执行的评估契约，适用于模型和智能体。
基于评分标准的语义评分：它超越了开放式提示，转向结构化、以标准为中心的评分，并包含明确的聚合规则。
关于评判能力的实证证据：该研究提供了数据驱动的证据，表明虽然紧凑型陪审团在经济上适合高吞吐量监控，但由于更高的方差和内部异议，它们尚未达到与前沿型陪审团在可审计标准评估中的决策等效性。

意义与主张

该论文主张，评估的可靠性既取决于契约，也取决于评判者。

对从业者的意义：该框架允许组织将“什么重要”（契约定义）与“成本多少”（评判者选择）分离开来。
战略洞察：紧凑型陪审团适用于低成本的结果监控，此时最终任务得分比具体的标准追踪更重要。然而，对于需要标准层面可审计性的高风险决策，由于其内部共识更优，前沿型陪审团仍是默认选择。
未来方向：作者建议，可以通过在线策略蒸馏（训练紧凑型评估者模仿前沿型陪审团的决策）来缩小紧凑型与前沿型行为之间的差距，但这被确定为未来工作，而非当前的能力。

作者保持谦逊，指出他们的研究评估的是陪审团之间的可比性，而非针对人类真实值的绝对正确性，且结果特定于所测试的 STEM 导向任务和 Harbor 智能体配置。

AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals