原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一下,你正在尝试预测一种新化学原料在配方中的表现。长期以来,人工智能领域的一个核心观念是:“越大越好。”其假设是,如果你构建一个基于海量数据训练的、无所不知的巨型人工智能大脑(即“大模型”),它会自动比专为单一特定任务构建的小型专用工具更聪明、更准确。
本文决定在药物发现领域对这一假设进行检验。他们并非凭空猜测,而是组织了一场涉及167,056 个不同挑战的宏大竞赛(预测分子与身体的相互作用、是否具有毒性,或是否能对抗结核病和疟疾等疾病)。
以下是他们发现的结果,通过一些简单的类比来呈现:
竞赛:巨人 vs. 专家
将参赛者想象为三种不同类型的赛跑者:
- “经典”赛跑者:它们就像专业技工。它们小巧、快速,使用简单且经过验证的工具(如扳手或螺丝刀)来解决特定问题。在研究中,这些是使用标准化学指纹的传统机器学习模型。
- “图”赛跑者:它们就像建筑师,关注建筑部件如何连接。它们稍微复杂一些,着眼于分子的形状和结构。
- “巨人”赛跑者:它们是超级英雄(大型语言模型)。它们几乎读遍了图书馆里的每一本书。它们庞大、强大,几乎能谈论任何话题。人们曾希望,其巨大的规模将使它们在预测化学行为方面表现最佳。
结果:小个子选手获胜更多
当竞赛开始时,“巨人”赛跑者并未以压倒性优势获胜。事实上,结果相当令人惊讶:
- 专业技工赢得了 22 场比赛中的 10 场。它们在预测结果方面最为准确。
- 建筑师赢得了 9 场。它们紧随其后,差距很小。
- 超级英雄巨人仅赢得了 3 场。尽管拥有巨大的规模和海量的训练数据,它们并未自动击败更小、更专注的模型。
“魔法 8 号球”基线
研究人员还测试了一种“基于规则”的方法,这就像让一本非常聪明但僵化的规则书(或特定的 AI 提示词)仅根据以往见过的模式进行猜测。这些方法也未赢得主要比赛,尽管它们在解释预测背后的原因方面很有帮助,有点像教练在赛后进行的分析。
主要启示
本文的主要教训是:规模并非万能。
- 没有通用赢家:仅仅因为一个模型庞大且通用,并不意味着它在每一项具体任务上都更出色。
- 取决于匹配度:模型能否获胜,取决于其“大脑”与特定问题类型、可用数据量以及所提出的具体生物学问题的匹配程度。
- 巨人的闪光点:本文指出,虽然大模型在预测确切数值方面可能并非最佳,但它们在零样本推理(在未训练的情况下解决从未见过的问题)、解释结果以及生成新想法(假设)方面仍然很有价值。
简而言之:如果你需要精确预测药物分子将如何起作用,一个小型的专用工具通常比一个庞大的通用 AI 更能胜任工作。“越大越好”的规则在这里并不适用;更重要的是拥有针对特定工作的正确工具。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。