Imputation of structural variants using a multi-ancestry long-read sequencing panel enables identification of disease associations

通过构建多祖先长读长测序面板以在 50 万名英国生物样本库参与者中推断结构变异,本研究实现了大规模全基因组关联分析,揭示了数千个显著的疾病关联,并证明了相较于传统短变异全基因组关联分析,结构变异在优先确定致病基因方面具有更优越的能力。

原作者: Noyvert, B., Erzurumluoglu, A. M., Drichel, D., Omland, S., Andlauer, T. F. M., Mueller, S., Sennels, L., Becker, C., Kantorovich, A., Bartholdy, B. A., Braenne, I., Bolivar-Lopez, J. C., Mistrellides
发布于 2026-05-19
📖 1 分钟阅读☕ 轻松阅读

原作者: Noyvert, B., Erzurumluoglu, A. M., Drichel, D., Omland, S., Andlauer, T. F. M., Mueller, S., Sennels, L., Becker, C., Kantorovich, A., Bartholdy, B. A., Braenne, I., Bolivar-Lopez, J. C., Mistrellides, C., Belbin, G. M., Li, J. H., Pickrell, J. K., Arora, J., Hu, Y., Boehringer Ingelheim - Global Computational Biology and Digital Sciences,, Wood, C. R., Kriegl, J. M., Podduturi, N., Jensen, J. N., Stutzki, J., Ding, Z.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

以下是用通俗易懂的语言和富有创意的类比对这篇论文的解读。

宏观视角:发现我们遗传密码中的“隐藏故障”

想象一下,你的 DNA 是一本构建和运行人体的庞大说明书。长期以来,科学家们非常擅长找出这本手册中的“拼写错误”——即单个字母的错误(例如将'A'变成了'G')。这些被称为单核苷酸变异(SNVs)

然而,还有一些更大、更剧烈的错误,旧方法往往无法发现。这些就是结构变异(SVs)。不要把它们想象成拼写错误,而应想象成整段文字被删除、大段文字被粘贴到错误的位置,或者整章内容被颠倒过来。由于这些“故障”规模巨大,旧的短读长测序技术(每次只读取手册中的几个字母)往往无法清晰地看到它们。这就像试图通过一次只看一个单词来发现书中缺失的一页。

这篇论文旨在构建一种新的、更好的方法来发现这些大故障,并观察它们如何导致疾病。

第一步:构建“主地图”(插补面板)

为了发现这些大故障,研究人员需要一份参考指南。他们不能只查看一个人的数据;他们需要多样化的人群,以了解这些故障在不同人类群体中是如何变化的。

  • 类比:想象试图找出道路网络中所有的独特坑洼。如果你只开过一条街道,你就会错过其他街道上的坑洼。
  • 他们做了什么:团队使用高科技的长读长相机(Oxford Nanopore 长读长测序技术)扫描了来自“千人基因组计划”的888 人的 DNA。这些人代表了五个主要祖先群体(非洲、欧洲、东亚、南亚和混合美洲裔)。
  • 结果:他们创建了一个经过精心策划的“主地图”,包含超过107,000 个结构变异。其中约**70%**的变异是“新颖的”,意味着它们以前从未被见过,因为以前的方法视野太短,无法发现它们。

第二步:填补空白(插补)

使用这种高科技长读长相机对 DNA 进行测序极其昂贵。如果要对英国生物样本库(一个拥有 50 万人的庞大数据库)中的每个人进行测序,成本约为 5 亿美元。

  • 类比:你拥有一张详细的高分辨率小镇地图(这 888 人)。你想知道整个国家(这 50 万人)的道路状况,但你无法负担调查每一条道路的费用。因此,你利用这张详细地图,基于每个人都已经拥有的现有路标(常见遗传标记),来预测(插补)该国其他地区道路的样子。
  • 他们做了什么:他们利用“主地图”来预测英国生物样本库中488,000 人的结构变异。他们检查了工作成果,发现对于常见变异,预测非常准确(在高质量区域可靠性超过 90%)。

第三步:寻宝(寻找疾病关联)

现在,他们拥有了近五十万人的结构变异列表,便开始寻找与疾病的联系。他们研究了32 种不同的性状,包括肺功能、心脏健康、肝脏健康,甚至血液中 1,463 种不同蛋白质的水平。

  • 结果
    • 他们发现了这些结构变异与疾病之间数千个显著的联系。
    • 其中许多联系是“独立的”,这意味着它们不仅仅是复制科学家已经知晓的小“拼写错误”(SNVs)的结果;这些是独特的信号。
    • 他们确定了689 个基因,这些基因很可能是导致这些疾病关联的“罪魁祸首”。

“顿悟”时刻:这对肺部健康为何重要

这篇论文以肺功能为例,具体说明了发现这些大故障为何如此有力。

  • 旧方法:以前的研究发现了一个与肺部问题相关的遗传地图位置。他们推测原因是附近的一个基因,但不确定三个候选基因中哪一个是真正的“元凶”。这就像看到犯罪现场,在没有指纹的情况下,猜测房间里的三个嫌疑人中是谁干的。
  • 新方法(SVs):研究人员在这些基因之一的内部发现了一个特定的“缺失”(一段缺失的 DNA)。这种缺失是最强的信号。
  • 证据:通过使用这张新地图,他们能够精确定位导致肺部问题的确切基因(在不同示例中为CFDP1MEGF6AAGABFLI1)。他们通过证明这些基因产生的蛋白质数量与肺功能直接相关,证实了这一点。

核心结论

这篇论文证明,我们现在可以在不支付使用昂贵长读长技术对每个人进行测序的巨额成本的情况下,发现 DNA 中的“大故障”。通过构建多样化的参考地图并利用它来预测庞大人群中的变异,他们发现了我们 DNA 与疾病之间数千个新的联系。

关键要点:正如侦探需要看到整个犯罪现场,而不仅仅是一个线索一样,科学家们现在拥有了一种工具,可以看清我们遗传“说明书”的全貌,帮助他们找到此前隐藏在阴影中的疾病真正成因。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →