HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

本文提出了名为 HypoSpace 的诊断套件,通过在因果推断、3D 重建和基因互作等确定性领域中评估大语言模型生成有效、独特且覆盖全面的假设集合的能力,揭示了传统正确性指标无法发现的“模式坍塌”现象,从而为衡量模型在科学问题欠定情境下的创造力提供了新视角。

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HypoSpace 的新工具,用来给大语言模型(LLM)做“体检”。它的核心发现是:现在的 AI 很擅长找到“一个”正确答案,但非常不擅长把“所有”可能的正确答案都找出来。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文:

1. 核心问题:为什么科学难题很难?(“多解之谜”)

想象你在玩一个侦探游戏

  • 场景:你发现桌子上有一杯打翻的咖啡。
  • 传统 AI 的做法:它可能会立刻说:“肯定是猫碰倒的!”(这是一个合理的解释,AI 答对了)。
  • 现实情况:其实除了猫,还有可能是风吹的、小孩碰的、或者桌子腿松了。在科学世界里,很多现象就像这杯咖啡,同一个现象背后可能有几十种完全不同的解释,而且这些解释在逻辑上都是通的。

这篇论文指出的问题是:目前的 AI 就像那个只猜“是猫”的侦探。它很自信,但它的思维太狭窄了,它只盯着一种可能性,而忽略了其他几十种同样合理的可能性。

2. 新工具:HypoSpace(“寻宝地图”)

作者们设计了一个名为 HypoSpace 的测试系统。

  • 它是怎么工作的? 他们把 AI 扔进一个只有有限个正确答案的迷宫里(比如:根据线索画出所有可能的因果图,或者根据投影还原所有可能的积木堆法)。
  • 关键区别:在这个迷宫里,作者手里有一张完整的“藏宝图”(他们知道所有正确答案的总数)。
  • 测试指标:他们不只看 AI 猜对没猜对,而是看三个指标:
    1. 有效性 (Validity):AI 猜的答案是不是真的合理?(就像侦探的推理有没有逻辑漏洞)。
    2. 独特性 (Uniqueness):AI 猜的 10 个答案里,有没有重复的?(如果 AI 说了 10 次“是猫”,那它就很笨)。
    3. 覆盖率 (Recovery):AI 能不能把藏宝图上所有的宝藏都挖出来?(这是最难的,看它能不能找到那 99% 被忽略的可能性)。

3. 测试发现:AI 的“思维定势”

作者测试了 GPT-5、Claude、Gemini 等最顶尖的模型,结果发现了一个令人担忧的**“模式崩溃”**现象:

  • 简单模式:当迷宫很小(只有几个正确答案)时,AI 表现完美,能找出所有答案。
  • 复杂模式:当迷宫变大(有几百个正确答案)时,AI 的表现就崩了。
    • 它依然能给出正确的答案(有效性很高)。
    • 但它开始疯狂重复自己找到的那两三个答案,或者只盯着最简单的答案看。
    • 比喻:就像让 AI 去数一个巨大的图书馆里所有的书。它可能能准确读出其中几本书的名字,但它会反复读这几本,而完全忽略了书架上其他成千上万本不同的书。

结论:AI 变得“懒惰”了。它倾向于只探索那些它最熟悉、概率最高的“舒适区”,而不敢去探索那些虽然正确但看起来比较冷门或复杂的区域。

4. 解决方案:给 AI 戴上“分类眼镜”

既然 AI 喜欢只找简单的,作者们想了一个简单的办法:强制它按难度分类找答案

  • 方法:告诉 AI:“先找所有最简单的答案,再找中等难度的,最后找最复杂的。”
  • 效果:这就像强迫侦探去检查那些平时被忽略的角落。
  • 结果:这种方法确实让 AI 找到了更多不同的答案(提高了覆盖率),虽然它不能彻底解决所有问题,但证明了改变 AI 的搜索策略比单纯让它多猜几次更有效

5. 现实意义:这对科学有什么用?

作者最后用真实的酵母基因数据做了测试。

  • 比喻:在研究基因时,科学家经常面临“多种基因组合都能解释同一个现象”的情况。
  • 发现:如果只依赖 AI 给一个答案,科学家可能会漏掉关键的基因组合,导致研究走弯路。
  • 价值:HypoSpace 告诉我们,在科学发现中,“找到所有可能性”比“找到一个正确答案”更重要。它帮助科学家意识到 AI 的局限性,并提醒人类研究者:不要盲目相信 AI 给出的唯一解释,要主动去探索那些 AI 没提到的可能性。

总结

这篇论文就像给 AI 照了一面**“思维广角镜”。它告诉我们:
现在的 AI 是个
优秀的“单点突破者”,但还不是一个合格的“全面探索者”**。在科学探索这种需要穷尽所有可能性的领域,我们还需要教会 AI 如何更广泛、更系统地思考,而不仅仅是追求“猜对”那一个答案。