Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

该研究提出利用基于大语言模型的全自动 AI 分析师在大规模、低成本地复现人类多分析师研究中的分析多样性,揭示了不同 AI 代理对同一数据集的分析结果存在显著差异且可被引导,从而论证了 AI 自动化实证科学中证据易受选择性报告影响的挑战,并呼吁建立包含“多元宇宙”式报告及提示词完全披露的新透明度规范。

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“AI 数据分析师”**的有趣实验,它揭示了一个令人深思的现象:即使面对完全相同的数据和任务,不同的 AI 也能得出截然不同的结论。

为了让你轻松理解,我们可以把这项研究想象成一场**“超级烹饪大赛”**。

1. 背景:为什么同样的食材会有不同的味道?

想象一下,你给 29 位顶级厨师(人类数据分析师)提供完全相同的一篮食材(数据集),并让他们做一道完全相同的菜(验证同一个假设,比如“裁判是否更倾向于给深色皮肤球员出示红牌”)。

过去的人类研究发现,这 29 位厨师做出来的菜,味道千差万别:

  • 有的厨师说:“这道菜很辣,证明假设成立!”
  • 有的厨师说:“这道菜很淡,假设不成立。”
  • 有的厨师甚至说:“这菜没法吃。”

这并不是因为厨师们笨或做错了,而是因为在烹饪过程中,每个人都会做很多**“合理的微调”**:

  • 有人切菜时多切了一点点(变量选择不同)。
  • 有人火候稍微大了一点(模型设定不同)。
  • 有人觉得盐放多了就少放点(数据处理不同)。

这些微小的选择汇聚起来,就像在分叉路口不断选择方向,最终导致大家走向了完全不同的终点。这在学术界被称为**“分叉路径的花园”**。

2. 实验:让 AI 来当“厨师”

以前,要组织 29 个真人厨师做实验,既贵又慢,还要协调大家的时间。但在这项研究中,作者们做了一件很酷的事:他们雇佣了成千上万个 AI 厨师(基于大语言模型的智能体)。

  • 食材:三个不同的真实数据集(足球裁判、程序员效率、选民观点)。
  • 任务:每个 AI 厨师独立地处理数据,写代码,做分析,最后给出一个结论。
  • 口味测试(Persona):作者给这些 AI 厨师设定了不同的“性格”或“人设”:
    • 中立派:公事公办。
    • 怀疑派:觉得这个假设肯定是错的,要拼命找茬。
    • 乐观派:觉得这个假设肯定对,要努力证明它。
    • 确认偏执狂(Confirmation Seeking):被明确指示“不惜一切代价,用各种合理的方法,找出支持这个假设的证据”。

3. 发现:AI 也能制造“口味大乱炖”

实验结果非常惊人:

  1. 结论大乱炖:面对同一份数据,AI 厨师们得出的结论五花八门。有的说“支持”,有的说“不支持”,有的说“证据不足”。就像同一道菜,有人觉得是甜的,有人觉得是咸的。
  2. 性格决定命运:这是最有趣的部分。如果你给 AI 厨师戴上“怀疑派”的面具,它就更可能得出“不支持”的结论;如果你给它戴上“确认偏执狂”的面具,它就能通过调整烹饪手法(比如换个统计模型、剔除几个数据点),让数据“变”出支持假设的味道。
    • 这种“性格”带来的影响非常大,甚至能改变 34% 到 66% 的结论走向。
  3. AI 审计员:为了防止 AI 瞎编乱造(比如幻觉),作者还安排了一位"AI 审计员”来检查。虽然审计员剔除了一些明显胡来的“厨师”,但剩下的“好厨师”之间,依然存在着巨大的结论差异

4. 核心隐喻:分叉路径的“无限复制机”

这就好比以前我们只能看到一条分叉路,现在 AI 让我们看到了整个分叉路森林

  • 风险:如果 AI 能轻易生成成千上万个“看起来都很合理”的分析报告,那么坏人(或者想偷懒的人)就可以像挑水果一样,只挑那个“结论最符合我心意”的报告发出来,而忽略其他几千个相反的报告。这会让科学变得不可靠,因为证据变得太廉价且容易“被挑选”了
  • 机遇:但反过来看,AI 也是解决这个问题的钥匙。既然 AI 能低成本地生成成千上万个不同的分析结果,我们为什么不把所有结果都展示出来呢?
    • 以前,人类科学家只能挑一个结果发表。
    • 现在,我们可以要求 AI 生成一个**“结果分布图”**(Multiverse)。就像展示一道菜的所有可能做法一样,告诉读者:“看,如果我们这样切菜,结果是 A;如果那样切菜,结果是 B。所以,这个结论其实是不确定的。”

5. 结论与启示:我们需要新的“透明规则”

这篇论文给未来的科学界提了一个醒:

  • 不要只看一个结果:当 AI 帮你写分析报告时,不要只接受它给出的那个“完美结论”。
  • 像展示代码一样展示“提示词”:就像科学家现在必须公开他们的代码和数据一样,未来他们也应该公开**“你是怎么问 AI 的”**(提示词)。因为你的提问方式(性格设定),直接决定了 AI 会给你什么样的答案。
  • 拥抱不确定性:最好的科学报告,不再是给出一个确定的数字,而是展示一个**“可能性的范围”**。

一句话总结
这项研究告诉我们,AI 不仅能像人类一样“看菜吃饭”(根据数据调整结论),甚至能更夸张地“看人下菜碟”(根据性格设定调整结论)。这既是科学被操纵的风险,也是让我们看清科学不确定性、让研究更透明的巨大机会。未来的科学报告,应该像展示“所有可能的菜谱”一样,把各种分析路径都摆出来,而不是只端上一盘“看起来最好吃”的菜。