LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

该论文介绍了 LABBench2,这是一个包含近 1900 项任务的改进版基准,旨在通过更贴近现实的科学任务来评估 AI 系统在生物学研究中的实际工作能力,并揭示了当前前沿模型在此类任务上仍面临显著挑战。

Jon M Laurent, Albert Bou, Michael Pieler, Conor Igoe, Alex Andonian, Siddharth Narayanan, James Braza, Alexandros Sanchez Vassopoulos, Jacob L Steenwyk, Blake Lash, Andrew D White, Samuel G Rodriques

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LABBench2 的新工具,你可以把它想象成是给 AI 科学家进行的一场"超级升级版的生物实验大考"。

为了让你更容易理解,我们可以把这项研究比作从“做数学题”到“真正开一家餐厅”的跨越

1. 背景:为什么需要这场新考试?

以前,AI 在科学领域主要是在做“填空题”或“选择题”。就像学生背熟了教科书,能回答“光合作用的公式是什么”这种问题。这被称为 LAB-Bench(第一代考试)。

但是,真正的科学研究不是背公式,而是像在一家繁忙的餐厅里当主厨

  • 你需要去查最新的食谱(文献检索);
  • 你需要看懂复杂的厨房监控图(图表理解);
  • 你需要去仓库找特定的食材(数据库访问);
  • 如果菜做失败了,你得知道是盐放多了还是火候不对(实验排错);
  • 你甚至要自己设计一道新菜(实验规划)。

第一代考试(LAB-Bench)虽然是个好开始,但题目太简单、太理想化了(比如直接把图片给 AI 看,而不是让 AI 自己去书里找)。现在的 AI 太聪明了,做这些简单题已经像“切菜”一样轻松,甚至超过了人类。所以,我们需要一个更难、更真实的考试,看看 AI 到底能不能真正帮科学家干活。这就是 LABBench2 诞生的原因。

2. LABBench2 考什么?(新考场的五大关卡)

这次考试包含了近 1900 道 题目,难度大幅提升,主要考察 AI 在五个方面的“实战能力”:

  • 关卡一:文献侦探 (Literature)

    • 旧考法:直接给你一篇文章,问“作者说了什么?”
    • 新考法 (LABBench2):只给你一个模糊的问题(比如“治疗这种病的最新专利是什么?”),AI 必须自己去茫茫书海里搜索正确的文章,甚至还要去查专利局临床试验的数据库,并且要能判断哪些资料是靠谱的,哪些是垃圾信息。
    • 比喻:以前是让你读给定的菜单,现在是让你自己去菜市场找最新鲜的食材,还要辨别哪个摊主在吹牛。
  • 关卡二:数据寻宝 (Data Access)

    • 旧考法:简单的数据库查询。
    • 新考法:面对成千上万个复杂的生物数据库,AI 需要像寻宝猎人一样,在成千上万条记录中找到那个特定的基因序列或蛋白质数据。这就像在图书馆的几百万本书里,凭一个模糊的线索找到唯一一本特定的书。
  • 关卡三:分子乐高 (Molecular Biology)

    • 内容:处理 DNA 序列。
    • 新挑战:以前 AI 可以直接看到 DNA 序列(像看乐高图纸)。现在,AI 必须学会读取文件,或者从数据库下载序列,然后像拼乐高一样,精确地设计引物或克隆方案。哪怕错一个字母,整个实验就失败了。
    • 比喻:以前是照着图纸拼积木,现在是要自己从仓库搬积木,还要保证每一块都严丝合缝,不能多也不能少。
  • 关卡四:故障排除 (Protocol Troubleshooting)

    • 内容:给 AI 一个有错误的实验步骤,让它找出问题。
    • 新挑战:错误变得更隐蔽,实验步骤更长、更复杂。就像给 AI 一个故障的机器,让它找出是哪个螺丝松了,而不是直接告诉它“这里坏了”。
  • 关卡五:实验规划师 (Experiment Planning)

    • 内容:从头设计一个完整的分子克隆实验。
    • 新挑战:AI 需要像总建筑师一样,从零开始规划整个实验流程,选择什么试剂、分几步走,并且要能生成机器可执行的代码来验证方案是否可行。

3. 考试结果:AI 表现如何?

这次考试的结果有点“喜忧参半”,但也揭示了真相:

  • 难度确实大了:相比第一代考试,AI 的得分普遍下降了 26% 到 46%。这说明 LABBench2 真的很难,不再是简单的“背题”能过的了。
  • 工具是双刃剑
    • 当 AI 能使用搜索工具代码工具时,它在查资料、写代码方面表现很好(就像给了主厨一把好用的刀)。
    • 但是,一旦涉及到从复杂的 PDF 文件里找图,或者在专业的数据库里精准提取数据,AI 就经常“迷路”或“抓瞎”。
  • 视觉能力很强,但“找图”能力弱:如果你直接把一张图表给 AI 看,它能看懂(就像看图说话)。但如果让它自己去一篇几百页的论文里找到那张图,它经常找不到。
  • 细节决定成败:在处理 DNA 序列时,AI 经常因为“粗心”(比如把文件读错了,或者代码写错了一个字符)而失败。这说明 AI 在处理精确的、长串的字符时,还不够像人类专家那样严谨。

4. 总结与启示

这篇论文的核心观点是:AI 在科学领域已经不再是“只会背书的优等生”,但离“能独当一面的科研助手”还有很长的路要走。

  • 现在的 AI:能看懂你给它的东西,也能做简单的搜索。
  • 未来的 AI 需要
    1. 更强的导航能力:能在复杂的科学文献和数据库里精准定位,不迷路。
    2. 更严谨的执行力:在处理 DNA 序列等精确数据时,不能出错。
    3. 真正的判断力:不仅能找资料,还能判断资料的质量(比如区分哪些临床试验是靠谱的)。

一句话总结:LABBench2 就像给 AI 科学家发了一张真实的“上岗证”考试卷。虽然现在的 AI 已经能考个及格分,但要想真正帮人类科学家发现新药、攻克疾病,它们还需要在“找资料”、“读图表”和“精准操作”上再练练级。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →