Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“AI 数据分析师”**的有趣实验，它揭示了一个令人深思的现象：即使面对完全相同的数据和任务，不同的 AI 也能得出截然不同的结论。

为了让你轻松理解，我们可以把这项研究想象成一场**“超级烹饪大赛”**。

1. 背景：为什么同样的食材会有不同的味道？

想象一下，你给 29 位顶级厨师（人类数据分析师）提供完全相同的一篮食材（数据集），并让他们做一道完全相同的菜（验证同一个假设，比如“裁判是否更倾向于给深色皮肤球员出示红牌”）。

过去的人类研究发现，这 29 位厨师做出来的菜，味道千差万别：

有的厨师说：“这道菜很辣，证明假设成立！”
有的厨师说：“这道菜很淡，假设不成立。”
有的厨师甚至说：“这菜没法吃。”

这并不是因为厨师们笨或做错了，而是因为在烹饪过程中，每个人都会做很多**“合理的微调”**：

有人切菜时多切了一点点（变量选择不同）。
有人火候稍微大了一点（模型设定不同）。
有人觉得盐放多了就少放点（数据处理不同）。

这些微小的选择汇聚起来，就像在分叉路口不断选择方向，最终导致大家走向了完全不同的终点。这在学术界被称为**“分叉路径的花园”**。

2. 实验：让 AI 来当“厨师”

以前，要组织 29 个真人厨师做实验，既贵又慢，还要协调大家的时间。但在这项研究中，作者们做了一件很酷的事：他们雇佣了成千上万个 AI 厨师（基于大语言模型的智能体）。

食材：三个不同的真实数据集（足球裁判、程序员效率、选民观点）。
任务：每个 AI 厨师独立地处理数据，写代码，做分析，最后给出一个结论。
口味测试（Persona）：作者给这些 AI 厨师设定了不同的“性格”或“人设”：
- 中立派：公事公办。
- 怀疑派：觉得这个假设肯定是错的，要拼命找茬。
- 乐观派：觉得这个假设肯定对，要努力证明它。
- 确认偏执狂（Confirmation Seeking）：被明确指示“不惜一切代价，用各种合理的方法，找出支持这个假设的证据”。

3. 发现：AI 也能制造“口味大乱炖”

实验结果非常惊人：

结论大乱炖：面对同一份数据，AI 厨师们得出的结论五花八门。有的说“支持”，有的说“不支持”，有的说“证据不足”。就像同一道菜，有人觉得是甜的，有人觉得是咸的。
性格决定命运：这是最有趣的部分。如果你给 AI 厨师戴上“怀疑派”的面具，它就更可能得出“不支持”的结论；如果你给它戴上“确认偏执狂”的面具，它就能通过调整烹饪手法（比如换个统计模型、剔除几个数据点），让数据“变”出支持假设的味道。
- 这种“性格”带来的影响非常大，甚至能改变 34% 到 66% 的结论走向。
AI 审计员：为了防止 AI 瞎编乱造（比如幻觉），作者还安排了一位"AI 审计员”来检查。虽然审计员剔除了一些明显胡来的“厨师”，但剩下的“好厨师”之间，依然存在着巨大的结论差异。

4. 核心隐喻：分叉路径的“无限复制机”

这就好比以前我们只能看到一条分叉路，现在 AI 让我们看到了整个分叉路森林。

风险：如果 AI 能轻易生成成千上万个“看起来都很合理”的分析报告，那么坏人（或者想偷懒的人）就可以像挑水果一样，只挑那个“结论最符合我心意”的报告发出来，而忽略其他几千个相反的报告。这会让科学变得不可靠，因为证据变得太廉价且容易“被挑选”了。
机遇：但反过来看，AI 也是解决这个问题的钥匙。既然 AI 能低成本地生成成千上万个不同的分析结果，我们为什么不把所有结果都展示出来呢？
- 以前，人类科学家只能挑一个结果发表。
- 现在，我们可以要求 AI 生成一个**“结果分布图”**（Multiverse）。就像展示一道菜的所有可能做法一样，告诉读者：“看，如果我们这样切菜，结果是 A；如果那样切菜，结果是 B。所以，这个结论其实是不确定的。”

5. 结论与启示：我们需要新的“透明规则”

这篇论文给未来的科学界提了一个醒：

不要只看一个结果：当 AI 帮你写分析报告时，不要只接受它给出的那个“完美结论”。
像展示代码一样展示“提示词”：就像科学家现在必须公开他们的代码和数据一样，未来他们也应该公开**“你是怎么问 AI 的”**（提示词）。因为你的提问方式（性格设定），直接决定了 AI 会给你什么样的答案。
拥抱不确定性：最好的科学报告，不再是给出一个确定的数字，而是展示一个**“可能性的范围”**。

一句话总结：
这项研究告诉我们，AI 不仅能像人类一样“看菜吃饭”（根据数据调整结论），甚至能更夸张地“看人下菜碟”（根据性格设定调整结论）。这既是科学被操纵的风险，也是让我们看清科学不确定性、让研究更透明的巨大机会。未来的科学报告，应该像展示“所有可能的菜谱”一样，把各种分析路径都摆出来，而不是只端上一盘“看起来最好吃”的菜。

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

1. 背景：为什么同样的食材会有不同的味道？

2. 实验：让 AI 来当“厨师”

3. 发现：AI 也能制造“口味大乱炖”

4. 核心隐喻：分叉路径的“无限复制机”

5. 结论与启示：我们需要新的“透明规则”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 实验设计

2.2 代理架构

2.3 数据提取与分析

3. 主要发现 (Key Results)

3.1 分析结果的巨大离散性 (Substantial Dispersion)

3.2 角色与模型的 steerability (可引导性)

3.3 审计的作用与局限

3.4 归因分析

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

1. 背景：为什么同样的食材会有不同的味道？

2. 实验：让 AI 来当“厨师”

3. 发现：AI 也能制造“口味大乱炖”

4. 核心隐喻：分叉路径的“无限复制机”

5. 结论与启示：我们需要新的“透明规则”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 实验设计

2.2 代理架构

2.3 数据提取与分析

3. 主要发现 (Key Results)

3.1 分析结果的巨大离散性 (Substantial Dispersion)

3.2 角色与模型的 steerability (可引导性)

3.3 审计的作用与局限

3.4 归因分析

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA