HViLM: A Foundation Model for Viral Genomics Enables Multi-Task Prediction of Pathogenicity, Transmissibility, and Host Tropism

本文提出了首个面向泛病毒基因组分析的基础模型 HViLM,该模型通过在大规模病毒序列上预训练并结合参数高效微调,在致病性、宿主范围和传播性预测任务上实现了超越现有方法的性能,并揭示了病毒免疫逃逸的生物学机制。

Davuluri, R. V., Dutta, P., Vaska, J., Surana, P., Sathian, R., Chao, M., Zhou, Z., Liu, H.

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于HViLM(人类病毒组语言模型)的科研论文。为了让你轻松理解,我们可以把这项研究想象成给病毒世界造了一个“超级侦探 AI"

🦠 核心故事:从“死记硬背”到“通晓病毒语”

1. 以前的困境:像背字典一样学病毒
在 HViLM 出现之前,科学家想预测一种新病毒有多危险(会不会让人生病?会不会传染?能不能感染人类?),就像是在背字典。

  • 问题:每出现一种新病毒(比如新的流感或冠状病毒),科学家就得重新训练一个专门的模型,就像为了学法语重新背一本法语字典,为了学西班牙语又背一本西班牙语字典。
  • 后果:太慢了!当一种全新的、未知的病毒突然爆发时,旧方法根本来不及反应。

2. HViLM 的诞生:病毒界的“通才”
研究团队创造了一个叫 HViLM 的 AI 模型。

  • 它是怎么学的? 想象一下,如果 DNABERT-2(一个原本学过所有生物 DNA 的 AI)是一个读过很多书的学生,那么 HViLM 就是让这个学生专门去图书馆读了 500 万本“病毒百科全书”
  • 数据来源:它阅读了来自 VIRION 数据库的 500 万个病毒基因组片段,涵盖了 45 多种病毒家族。它不再只是死记硬背,而是学会了病毒内部的“语言规律”和“写作风格”。

🎯 这个 AI 能做什么?(三大超能力)

HViLM 就像一个全能侦探,拿到一段病毒基因序列,就能立刻回答三个关键问题:

  1. 致病性(Pathogenicity):它是个“坏蛋”吗?

    • 比喻:就像警察看通缉令,判断这个人是“普通路人”还是“危险罪犯”。
    • 能力:它能准确判断病毒会不会让人生病。在测试中,它的准确率高达 95.32%
  2. 宿主嗜性(Host Tropism):它喜欢咬谁?

    • 比喻:就像判断一只狼是只吃鹿,还是专门想咬人。
    • 能力:它能预测这个病毒是只感染动物,还是已经进化到能感染人类了。准确率高达 96.25%
  3. 传播力(Transmissibility):它会引发大流行吗?

    • 比喻:就像预测一场火是“小火苗”还是“森林大火”。
    • 能力:它能评估病毒在人群中传播的难易程度(比如基本再生数 R₀)。准确率高达 97.36%

🔍 最精彩的部分:它不仅仅是猜,它还能“解释”

以前的 AI 像个“黑盒子”,只给答案,不说原因。但 HViLM 有一个**“透视眼”**(注意力机制)。

  • 发现秘密武器:研究人员让 HViLM 分析为什么某些冠状病毒特别危险。AI 发现,这些病毒在基因里**“伪装”**成了人类自身的某些信号。
  • 生动的例子
    • 伪装成“免疫系统的假警报”:病毒模仿了人类一种叫 Irf1 的蛋白质信号(这是人体对抗病毒的“警报器”)。病毒通过模仿这个信号,骗过人体免疫系统,让它“闭嘴”,从而逃过追杀。研究发现,有 8 种 不同的病毒序列都独立进化出了这种模仿能力,就像小偷都学会了同一种开锁技巧。
    • 伪装成“细胞大门的钥匙”:病毒还模仿了 Foxq1 信号,这就像复制了一把能打开呼吸道细胞大门的钥匙,让病毒更容易入侵人体。

这意味着什么? HViLM 不仅算得准,还帮我们发现了病毒致病的真实生物学原理,甚至可能帮科学家找到新的药物靶点(比如专门针对这些伪装信号的药物)。

🚀 为什么这很重要?

  • 速度快:以前遇到新病毒要几个月才能评估风险,现在 HViLM 可以在几小时内给出初步判断。
  • 省钱省力:它不需要为每个病毒重新训练,就像你学会了英语,就能读懂各种英文文章,而不需要为每本书重新学。
  • 未来防御:在下次大流行爆发前,我们可以用这个模型快速筛查自然界中潜在的“危险分子”,提前做好准备。

总结

HViLM 就像是给人类配备了一位精通病毒语言的超级翻译官兼侦探。它不仅告诉我们病毒有多危险,还能告诉我们病毒“为什么”危险,以及它是如何“伪装”自己来欺骗我们的免疫系统的。这为未来的全球公共卫生安全提供了一把强有力的“金钥匙”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →