Sequence-Based Prioritization of Promoter Regulatory Variants in Colorectal Cancer Using a DNA Foundation Model

本研究提出了一种计算框架,利用 Evo2 DNA 基础模型,通过量化非编码调控变异对启动子序列的影响,优先筛选结直肠癌中的相关变异,在不依赖监督训练或预定义注释的情况下,成功识别出富集于癌症相关通路和全基因组关联分析位点的高影响候选变异。

原作者: Shome, S., Vajinepalli, S., Saraf, A.

发布于 2026-05-28
📖 1 分钟阅读☕ 轻松阅读

原作者: Shome, S., Vajinepalli, S., Saraf, A.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

将人体想象成一座庞大而复杂的工厂。在这座工厂内,DNA是总指令手册。大多数人将“突变”(手册中的更改)视为实际产品描述(即制造蛋白质的基因)中的拼写错误。但本文聚焦于另一种拼写错误:那些出现在启动子中的错误。

将启动子想象为位于每条指令起始处的开关和音量旋钮。如果你微调开关附近的文字,可能不会改变产品本身,但可能会意外地将机器音量调得过大、完全关闭机器,或使其在错误的时间运行。在结直肠癌(CRC)中,这些“开关”类的拼写错误是主要祸因,但它们极难被发现,因为手册浩如烟海,而我们缺乏关于开关位置的良好地图。

新工具:“超级读者”人工智能

为解决这一问题,研究人员利用Evo2构建了一种新的计算工具。Evo2 如同一位“超级读者”人工智能,它是在跨越生命之树的庞大 DNA 序列库上训练而成的。该人工智能无需人类告知开关长什么样(这通常未知),而是自行学习了 DNA 的“语法”。

他们使用它的方式如下:

  1. 扫描:他们检查了约 1,250 个已知与结直肠癌相关的基因。
  2. 测试:他们选取一段特定的 DNA 序列,询问人工智能:“这段序列是自然产生的可能性有多大?”随后,他们在启动子区域进行微小改动(变异),再次提问。
  3. 评分:他们计算概率的差异。如果人工智能对这一改动感到极度困惑(概率大幅下降),则获得高“影响评分”。这就像注意到句子中单个字母的改变,使得整个段落听起来完全错误。

他们的发现

结果如同用金属探测器在干草堆中寻找针尖。

  • 信号:与 DNA 的随机部分相比,“开关”区域(启动子)在人工智能的置信度上显示出更大的变化。这仿佛人工智能能清晰分辨出损坏的开关与随机尘埃之间的差异。
  • 候选名单:通过设置严格过滤器(仅关注最让人工智能困惑的前 25% 的改动),他们鉴定出分布在 198 个基因中的287 个高影响变异
  • 验证:当他们检查这 198 个基因时,发现它们并非随机名称,而是癌症领域的“重磅人物”,深度参与工厂的"Wnt 信号通路”(生长控制)、"p53 信号通路”(损伤修复)和“细胞周期”(生产速度)。约**36%**的这些基因已被确认为与癌症相关。

为何重要

研究人员通过检查这些高分变异是否与大型人群研究(GWAS)中发现的已知癌症热点区域一致,验证了他们的列表。他们还发现,这些变异往往恰好落在转录因子(负责翻转开关的工人)本应结合的位置,或者会破坏工人的抓握力。

核心结论
本文证明,你无需预先绘制的地图或教师,就能找到 DNA 指令手册中的危险拼写错误。通过使用理解生命语言的“超级读者”人工智能,你可以自动扫描数百万条序列,识别出那些破坏癌症基因“音量旋钮”的变异,并将其优先列为进一步研究的对象——这一切都不需要事先知晓游戏规则。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →