CoPeP: Benchmarking Continual Pretraining for Protein Language Models

本文提出了 CoPeP 基准,旨在评估蛋白质语言模型在持续预训练中的表现,通过利用 UniProt 十年间数据的时序元信息,证明了该方法在 31 项任务中不仅能显著降低困惑度,还能在大规模场景下超越简单的持续预训练策略。

Darshan Patil, Pranshu Malviya, Mathieu Reymond, Quentin Fournier, Sarath Chandar

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CoPeP 的新项目,它的核心目的是给“蛋白质语言模型”(一种能读懂蛋白质序列的 AI)建立一个持续学习的考试系统

为了让你轻松理解,我们可以把这篇论文的故事想象成**“一位不断进化的蛋白质翻译官”**的进修之路。

1. 背景:蛋白质是生命的“乐高”,AI 是“翻译官”

  • 蛋白质:你可以把它们想象成由 20 种不同颜色的积木(氨基酸)搭成的复杂结构。这些结构决定了生命如何运作。
  • 蛋白质语言模型 (pLM):这是一种 AI,它把蛋白质序列当作“语言”来学习。就像我们学中文一样,它通过阅读海量的蛋白质“书籍”(数据库),学会了积木的排列规律,从而能预测蛋白质的功能,甚至设计新的蛋白质来治病(药物研发)。
  • 问题:这些“书籍”(数据库,比如 UniProt)不是静止的。生物学家每年都在里面添加新发现的蛋白质,也会剔除那些被证明是错误、重复或无用的数据。
    • 比喻:想象你在读一本不断更新的百科全书。如果 AI 只读 2015 年的版本,到了 2024 年,它读到的知识就过时了,而且里面还夹杂着很多后来被证实是错的“谣言”。
    • 传统做法:每次数据库更新,就把 AI 扔了,重新用所有新数据从头训练一次。这就像为了更新一本字典,把整个图书馆烧了重盖,太慢、太贵、太浪费

2. 解决方案:CoPeP 基准测试

作者们提出了 CoPeP(Continual Pretraining of Protein Language Models),这就像是为 AI 设计的一套**“终身学习”的模拟考场**。

  • 考什么?
    他们收集了从 2015 年到 2024 年,每年更新的蛋白质数据库快照。

    • 比喻:这就像给 AI 安排了一场为期 10 年的连续考试。每年发一套新卷子(新数据),AI 不能把去年的知识全忘了,也不能只学今年的,它要一边学新东西,一边保留旧知识,还要学会分辨哪些是“真知识”(长期保留的),哪些是“假知识”(后来被剔除的)。
  • 怎么考?
    他们设计了三个维度的挑战:

    1. 自然分布测试:看 AI 是否还能读懂当前最主流的蛋白质“方言”。
    2. 突变预测 (ProteinGym):如果积木换了一块(基因突变),蛋白质还能工作吗?
    3. 多功能理解 (PEER & DGEB):看 AI 能否理解蛋白质的功能、位置和结构等复杂概念。

3. 核心发现:时间就是智慧

论文中最有趣的发现是:“时间”本身就是一种宝贵的信息。

  • 旧数据 vs. 新数据
    在数据库里,有些蛋白质序列从 2015 年一直保留到 2024 年,而有些只出现了一两年就被删掉了。
    • 比喻:就像在人群中,那些几十年都还在的“老居民”通常更靠谱;而那些刚来就消失的“过客”,可能是误入的或者不稳定的。
    • AI 的顿悟:研究发现,如果 AI 能利用这种“时间元数据”(即:这个序列存在了多久?),它就能学得更好。
    • 结果:利用这种“时间智慧”的 AI,比那些只是简单地把所有年份数据混在一起训练的 AI,表现好了 7%。这就像是一个聪明的学生,不仅读了书,还知道哪些书是经典常读,哪些是过期的八卦。

4. 各种“学习方法”的较量

作者测试了 6 种不同的“学习策略”(也就是让 AI 持续学习的算法),看看谁最聪明:

  1. 死记硬背 (Naive):每年只学当年的,不管以前学的。结果:忘性大,学新忘旧。
  2. 温故知新 (Replay):学新东西时,偶尔复习一下旧数据。
    • 亮点:他们改进了一种叫**“时间回放”的方法,优先复习那些“长期存在”的蛋白质。结果在理解自然语言(UniProt 验证集)上大获全胜**。
  3. 保持弹性 (Plasticity):比如“兔子与乌龟”法(Hare and Tortoise),让模型保持一部分“慢速”记忆,一部分“快速”学习。
    • 亮点:这种方法在预测突变效果(ProteinGym)时表现最好。
  4. 主动遗忘 (Unlearning):比如“梯度上升”法,主动把那些后来被数据库剔除的“错误数据”从脑子里擦除。
    • 亮点:这种方法在理解复杂功能(DGEB)时表现优异。

5. 总结与意义

这篇论文告诉我们:

  • 不要重头再来:在药物研发中,我们不需要每次都把 AI 推倒重来。通过持续学习,AI 可以像人类专家一样,随着科学进步不断进化。
  • 时间是有价值的:数据在时间轴上的“留存率”是一个巨大的信号。能利用这个信号的 AI,能更精准地理解生命的语言。
  • 没有万能药:不同的任务需要不同的学习策略。有的擅长记“常识”,有的擅长应对“突变”,有的擅长“纠错”。

一句话总结
CoPeP 就像是一个蛋白质 AI 的“终身教育学院”,它证明了让 AI 随着时间推移,利用数据的“历史沉淀”来不断自我更新,比单纯地堆砌数据或重新训练要高效得多,这将为未来加速新药研发打开大门。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →