Nonstandard Errors in AI Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且令人深思的问题：如果我们给一群"AI 研究员”同样的数据和同一个研究问题，它们会得出完全相同的答案吗？

答案是：不会。而且差异大得惊人。

为了让你轻松理解这项研究，我们可以把整个实验想象成一场**“超级 AI 烹饪大赛”**。

1. 实验设定：一场混乱的烹饪大赛

想象一下，你给 150 个拥有顶级厨艺的AI 机器人（也就是论文里的"AI 代理”）下达了同一个任务：

食材：一份巨大的、关于 SPY（标普 500 指数 ETF）过去 10 年交易数据的“大锅汤”（NYSE TAQ 数据）。
菜谱要求：请分析这道汤的味道在过去 10 年是变好了还是变差了？（比如：交易成本是降了还是升了？市场效率是高了还是低了？）
规则：每个机器人必须独立工作，自己决定怎么切菜、用什么火候、放什么调料，最后写出一份 2000 字的“美食报告”。

2. 核心发现：同样的食材，完全不同的味道

研究结果发现，这 150 个 AI 做出来的“菜”，味道（结论）天差地别。这就是论文提出的**“非标准误差”（Nonstandard Errors, NSE）**。

比喻：这就好比让 150 个厨师做“红烧肉”。
- 有的厨师认为“红烧肉”是指按斤称重的肉（美元交易量），结果发现肉价涨了（结论：交易量增加）。
- 有的厨师认为“红烧肉”是指按块数算的肉（股份交易量），结果发现块数少了（结论：交易量减少）。
- 结果：虽然大家用的是同一锅肉，但因为对“红烧肉”这个定义的理解不同，一个说“肉变多了”，一个说“肉变少了”。

关键点：这种差异不是随机乱猜，而是有规律的。

有的 AI 模型（比如 Sonnet 系列）特别喜欢用“自相关”这种数学工具。
有的 AI 模型（比如 Opus 系列）则死板地只认“方差比”这种工具。
这就像有的厨师天生喜欢用“糖醋口”，有的天生喜欢“咸鲜口”，不管给什么菜，他们都会往那个方向调。

3. 三个阶段：AI 如何面对“同行评审”？

研究者设计了三个阶段的“比赛”，看看 AI 能不能通过互相交流来统一意见：

第一阶段（独立烹饪）：大家各自做，结果五花八门，差异巨大。
第二阶段（AI 互评）：让 AI 们互相看对方的报告，写评语（比如“你切菜太厚了”、“火候不对”）。
- 结果：完全没用！ AI 们虽然听了评语，但有的往左改，有的往右改，整体差异（方差）一点没减少。
- 比喻：就像一群厨师互相提意见，有的厨师听了说“那我多放盐”，有的说“那我少放盐”，最后大家还是各做各的，味道依然不统一。
第三阶段（看“满分作业”）：让 AI 们看看前两名“满分作业”是怎么做的，然后重新做。
- 结果：效果惊人！ 如果满分作业用的是“糖醋口”，其他 AI 就会疯狂模仿，迅速统一成“糖醋口”，差异瞬间缩小了 80%-99%。
- 陷阱：但如果满分作业里有的用“糖醋”，有的用“麻辣”，AI 们就会陷入混乱，有的学糖醋，有的学麻辣，反而让结果更乱了。

4. 这个发现意味着什么？

A. AI 不是“真理机器”，它们也会“随大流”

AI 并不是像我们想象的那样，只要数据一样，答案就唯一。它们会像人类一样，因为“定义模糊”而产生分歧。

比喻：如果你问 AI“什么是好电影？”，有的 AI 会看票房（美元量），有的 AI 会看评分（份额量）。如果你不规定清楚，它们就会吵个不停。

B. “模仿”比“批评”更有效

在 AI 的世界里，“看学霸怎么做”（模仿满分作业）比**“听老师批评”**（同行评审）更能让它们统一行动。但这有个风险：如果学霸们本身就没达成一致，AI 就会盲目跟风，导致集体犯错。

C. AI 的“风格”是固定的

不同的 AI 模型（Sonnet vs. Opus）就像不同流派的画家。有的喜欢画写实，有的喜欢画抽象。这种“风格”是刻在它们基因里的，不会因为多跑几次就变。

5. 给普通人的启示

不要迷信单个 AI 的答案：如果你让 AI 帮你分析股市或写报告，不要只信它一次算出来的结果。就像做菜，最好让三个不同流派的厨师各做一遍，看看结果是不是差不多。
定义要清晰：如果你问 AI 问题，一定要把定义讲清楚（比如“交易量”是指钱还是指股数）。如果问题本身模棱两可，AI 就会给出五花八门的答案。
AI 是“不确定性”的镜子：这篇论文最深刻的观点是——AI 产生的分歧，其实反映了人类科学界本身的分歧。因为 AI 是读了人类几百万篇论文训练出来的，如果人类学者对“怎么衡量市场效率”都没达成一致，AI 自然也没法达成一致。AI 的“错误”，其实是人类知识体系中“模糊地带”的诚实反映。

总结一句话：
这项研究告诉我们，AI 虽然聪明，但它们也会像人类一样“各抒己见”。在让 AI 做重要决策（比如政策制定、投资分析）时，我们不能只问一次，而应该像**“多宇宙分析”**（Multiverse Analysis）那样，让 AI 尝试多种不同的方法，看看结论是否稳健。否则，我们可能只是在一个 AI 的“口味偏好”里打转，而错过了真正的真相。

Nonstandard Errors in AI Agents

1. 实验设定：一场混乱的烹饪大赛

2. 核心发现：同样的食材，完全不同的味道

3. 三个阶段：AI 如何面对“同行评审”？

4. 这个发现意味着什么？

A. AI 不是“真理机器”，它们也会“随大流”

B. “模仿”比“批评”更有效

C. AI 的“风格”是固定的

5. 给普通人的启示

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 主要发现 (Key Results)

3.1 AI 存在显著的非标准误差 (Sizable NSE)

3.2 NSE 的结构特征：集中在“指标选择”分支

3.3 反馈机制的效果差异

3.4 多宇宙分析 (Multiverse Analysis)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

Nonstandard Errors in AI Agents

1. 实验设定：一场混乱的烹饪大赛

2. 核心发现：同样的食材，完全不同的味道

3. 三个阶段：AI 如何面对“同行评审”？

4. 这个发现意味着什么？

A. AI 不是“真理机器”，它们也会“随大流”

B. “模仿”比“批评”更有效

C. AI 的“风格”是固定的

5. 给普通人的启示

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 主要发现 (Key Results)

3.1 AI 存在显著的非标准误差 (Sizable NSE)

3.2 NSE 的结构特征：集中在“指标选择”分支

3.3 反馈机制的效果差异

3.4 多宇宙分析 (Multiverse Analysis)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents