Knowledge Inclusive Machine Learning for Disease Gene Prioritisation

原作者： Gamage, C. J., Xia, Y., Rupasinghe, R., Senevirathne, S., Senanayake, D., Malepathirana, T., Hevapathige, A., Corbett, M., O'Brien, T. J., Petrou, S., Berkovic, S. F., Scheffer, I. E., Gecz, J., Bahlo

发布于 2026-05-02

📖 1 分钟阅读☕ 轻松阅读

查看于 bioRxiv ↗PDF ↗

CC BY 4.0

原作者： Gamage, C. J., Xia, Y., Rupasinghe, R., Senevirathne, S., Senanayake, D., Malepathirana, T., Hevapathige, A., Corbett, M., O'Brien, T. J., Petrou, S., Berkovic, S. F., Scheffer, I. E., Gecz, J., Bahlo, M., Bennett, M. F., Halgamuge, S. K.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一下，你正在一座巨大而拥挤的城市中寻找一名特定的失踪人员。为此，你有两种截然不同的帮助可用，但单独依靠任何一种都不完美。

两种帮助类型

“实时摄像头画面”（实验数据）：这就像观看这座城市此刻的实时监控画面。它能让你确切地看到此时此刻谁在何处。然而，摄像头存在故障：有时画面模糊，有时光线太暗，而且它只向你展示此刻正在发生什么，却不会告诉你这些人是谁，或者他们通常做什么。如果你只依赖这一来源，可能会因为一个陌生人恰好戴着和你寻找的人相同的红帽子，而将其误认。
“城市百科全书”（ curated 知识）：这就像拥有一部庞大且编写精良的百科全书，列出了城市中的每一个人、他们的家谱、职业以及已知习惯。它准确可靠，但过于笼统。它告诉你“约翰·史密斯是一名医生”，但无法告诉你具体是哪一位“约翰·史密斯”此刻正站在公园里寻求帮助。它缺乏从人群中挑出特定个体所需的精细细节。

问题所在
大多数试图寻找致病基因（即“失踪人员”）的科学家，一直只在使用“实时摄像头画面”。由于数据充满噪声且仅针对单一实验，他们的计算机模型常常被误导。他们开始基于随机模式（例如“这张照片里每个人都戴着红帽子”）进行猜测，而不是理解真正的生物学机制。

解决方案：知识包容性机器学习（KIML）
本文作者引入了一种名为KIML的新方法。将 KIML 想象为一位超级聪明的侦探，他拒绝只依赖单一来源。相反，这位侦探会：

观看实时摄像头画面（实验数据）。
将其与百科全书（curated 知识）进行交叉比对。
甚至查阅当地报纸档案（来自 PubMed 的文献）和城市官方数据库（生物医学知识图谱）。

通过将“当下”与“已知历史”相结合，这位侦探可以忽略摄像头的故障，专注于真实的故事。

他们的发现
研究人员在一种名为发育性癫痫性脑病的特定病症上测试了这位新侦探（KIML）。他们将其与仅使用“摄像头画面”的其他方法进行了比较。

更高的准确性：KIML 在正确识别相关基因方面表现优异得多。
真正的理解：当模型做出预测时，它能利用生物学事实而非仅仅是随机数学来解释为何做出该选择。
通用性：该方法并非“一招鲜”；在另外六种不同疾病的测试中，它同样表现良好。

核心结论
本文认为，要真正理解复杂疾病，不能仅查看单一实验的原始数据。你需要将数据置于我们已知的所有生物学背景之中。通过教导机器在观看“摄像头”的同时阅读“百科全书”，我们就能获得关于哪些基因导致疾病更智能、更可靠的答案。

1. 问题陈述

2. 方法论：知识包容性机器学习（KIML）

3. 主要贡献

4. 结果

5. 意义