原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一下,你正在招募一支初级科学家团队,去解决一个基于著名真实医学发现的复杂谜题。过去,要评估他们是否表现出色,你只会查看他们的最终答案。如果答案正确,你就给他们一颗金星;如果错误,就给他们一个红叉。
本文指出,这种“仅看最终答案”的方法存在两大缺陷:
- 幸运猜测:学生可能并非因为理解了科学原理而得出正确答案,而是因为他们背下了答案、作弊,或者纯粹是偶然猜对了。
- 错误路径:学生可能采用了一种 brilliant、有效且富有创意的解题方式,与教师指定的具体方法不同。在旧规则下,仅仅因为他们的解题路径与教科书不完全一致,他们就会得到一个红叉。
为了解决这一问题,作者们创建了 BiomniBench。不妨将其想象成一场对学生整个思维过程的详细视频复盘,而非一次期末考试。他们不再仅仅检查最终得分,而是观看 AI 智能体如何工作的完整“电影”。他们使用由真实人类专家设计的特殊“评分细则”(检查清单),对 AI 采取的每一步进行评分,确保其真正理解了生物学知识,而非仅仅是在猜测。
他们测试了什么:
他们构建了一个名为 BiomniBench-DA 的特定版本,这就像拥有 100 个不同训练站的健身房。这些训练站涵盖了 17 种不同类型的数据分析、5 种不同的疾病领域以及普通生物学知识。这些“训练项目”基于《自然》(Nature)、《细胞》(Cell)和《科学》(Science)等顶级期刊中真实的、高风险的科学论文。关键在于,原始论文的撰写者(或对其了如指掌的专家)协助设计了这些测试,以确保其公平性和准确性。
他们发现了什么:
他们用这套新系统测试了当时最先进的人工智能模型,并发现了三个重大现象:
- 最聪明的模型领先,但仍需学习:最先进的 AI 模型表现最佳,但在达到完美之前,它们仍有很长的路要走。
- 工具与大脑同等重要:AI 模型有多聪明并不足以决定一切;“ harness”(运行 AI 的软件封装或工具)对结果的影响与模型本身同样巨大。这就好比一位优秀的司机也可能在故障车辆中发生车祸。
- 特定弱点:AI 智能体在以下三个领域 consistently 表现不佳:选择正确的分析方法、理解生物学结果的实际含义,以及通过真正的科学推理将各个线索串联起来。
简而言之,BiomniBench 是首个能够让我们观察 AI 在真实世界医学研究中“思考”过程的工具,它揭示了许多简单的“对或错”评分完全会忽略的错误。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。