Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

本文提出了 DBench-Bio,这是一个面向生物医学领域的动态自动化基准,旨在通过月度更新的权威文献数据构建问答对,以解决现有静态基准的数据污染问题并有效评估大语言模型发现新知识的能力。

Chaoqun Yang, Xinyu Lin, Shulin Li, Wenjie Wang, Ruihan Guo, Fuli Feng, Tat-Seng Chua

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在问一个非常有趣的问题:现在的超级人工智能(大语言模型),是真的能像科学家一样“发现”新知识,还是仅仅在“背”它以前学过的旧书?

为了回答这个问题,作者们设计了一个名为 DBench-Bio 的“动态考试系统”。我们可以用几个生动的比喻来理解这项研究:

1. 为什么要搞这个新考试?(旧考试的漏洞)

想象一下,以前我们考 AI 科学能力,就像给它们做一套固定的试卷

  • 问题出在哪? 现在的 AI 太聪明了,它们在学习阶段可能已经把这套试卷背下来了。
  • 后果: 当 AI 在试卷上答对题时,我们不知道它是真的懂了科学原理,还是仅仅在回忆答案。这就好比学生作弊,虽然考了 100 分,但并没有真正学会新知识。
  • 更糟糕的是: 科学进步太快了,旧试卷上的题目可能已经过时,或者 AI 在训练时已经偷偷看过这些题目了。

2. DBench-Bio 是怎么工作的?(动态的“新鲜出炉”考试)

为了解决作弊问题,作者们设计了一个**“每月更新、自动出题”的机制。我们可以把它想象成一个“最新鲜的食材市场”**:

  • 第一步:去最顶级的菜市场进货(数据获取)
    他们不随便找书,而是专门去全球最顶尖的生物学杂志(就像只去米其林餐厅的后厨)找最近一个月刚发表的研究论文摘要。

    • 比喻: 就像你要考厨师,不能考他以前做过的菜,必须让他用昨天刚上市、他从未见过的最新食材来做饭。
  • 第二步:自动出题(QA 提取)
    利用另一个强大的 AI,把这些刚发表的论文摘要,自动转化成“问题”和“标准答案”。

    • 比喻: 比如论文说“发现了一种新药能治感冒”,AI 就自动生成问题:“这种药是怎么治感冒的?”并提取出核心答案。
  • 第三步:严格质检(QA 过滤)
    因为自动生成的题目可能质量不高(比如问了一些无关紧要的细节),所以再用一个 AI 当“考官”,把那些不相关、不清晰、或者不是核心发现的题目全部扔掉,只留下最精华的“核心科学发现”题目。

结果: 这个考试系统每个月都会自动更新,里面的题目都是 AI 在训练时绝对没见过的最新知识。

3. 考试结果怎么样?(AI 的“真本事”测试)

作者们拿目前世界上最厉害的 AI(比如 GPT-5 系列等)来参加了这个考试,结果有点令人失望

  • 背题王 vs. 发明家:
    这些 AI 在考“旧知识”(比如教科书里的生物常识)时,能拿 90 多分,像个超级学霸。但在考“新知识”(刚发表的论文)时,分数断崖式下跌

    • 比喻: 它们就像是一个博闻强记的图书馆管理员,能瞬间告诉你《红楼梦》里所有的情节,但如果你让它写一部全新的、没人看过的小说,它就显得手足无措,甚至开始胡编乱造。
  • 数学是硬伤:
    在涉及“数学和计算生物学”的领域,AI 的表现特别差。这说明它们在处理复杂的逻辑推理和计算模拟时,还很笨拙。

  • 工具也没用:
    有人想:“那给 AI 配个搜索引擎(工具)不就行了吗?”
    结果发现,即使给了搜索工具,AI 的成绩提升也很有限。因为它们往往太自信了,明明应该去查资料,却直接用自己的“老底”瞎猜,而且猜得还挺像那么回事(这就是所谓的“幻觉”)。

4. AI 为什么会失败?(四种“翻车”现场)

作者分析了 AI 答错题的原因,发现主要有四种“翻车”模式:

  1. 瞎编机制(Mechanism Error): 问它“药 A 怎么治癌症”,它编造了一套听起来很科学的流程,但完全是错的。
  2. 张冠李戴(Generic Mechanism): 它知道“青霉素”大概能杀菌,但具体到这篇新论文里发现的“某种特殊蛋白”怎么起作用,它就用通用的老套路来糊弄,没有抓住新发现的核心
  3. 直接认怂(Refusal): 遇到不会的,直接说“我不知道”,不敢尝试推理。
  4. 过度自信(Overconfident): 明明有新发现,它却假装自己全知道,用旧知识强行解释新现象,错得理直气壮

5. 这篇论文的意义是什么?

  • 给 AI 照了照镜子: 它告诉我们,现在的 AI 虽然很擅长整理和回忆旧知识,但真正的“科学发现”能力(从零开始推导新结论)还非常弱。
  • 提供了一个新工具: 作者开发的这套“自动出题、每月更新”的系统,不仅可以用在生物学,以后还可以套用到物理、化学等领域。这就像给 AI 行业提供了一个不断进化的“试金石”,用来衡量 AI 到底有没有在变聪明,还是只是在变“记性好”。

总结一下:
这篇论文就像是在说:“别被 AI 的高分骗了,它们现在更像是超级复读机,而不是科学家。要真正让它们学会‘发现’新知识,我们还需要更多的努力,而不仅仅是让它们读更多的书。”