原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象你拥有一座巨大的图书馆,其中藏有数千种不同的书籍(蛋白质),它们都来自一滴血液。在一个完全健康的人体内,这些书籍以一种非常特定且和谐的方式排列。这就是“健康图谱”。
医生面临的问题是,一个人患病的方式有数百万种(癌症、病毒等),而每一种疾病都会导致这些书籍以完全不同的、混乱的方式被打乱。试图教计算机识别每一种可能的混乱状态是不可能的,因为疾病种类太多,而针对每一种疾病可供研究的患病者又太少。
论文的方案:“健康基线”侦探
研究人员决定反其道而行之,不再试图 memorize 每一种可能的患病方式,而是教他们的计算机只精通“健康”是什么样子的。
以下是他们如何做到的,使用一个简单的类比:
1. “拥挤房间”问题(高维性)
想象一下,你要在一个挤满 10,000 人的体育场里找到特定的人,而每个人都穿着不同颜色的衬衫、戴着不同颜色的帽子、穿着不同颜色的鞋子。一次性处理如此多的信息是不可能的。
- 解决方案: 研究人员使用了一种称为“子空间学习”的技术。这就像戴上一副特殊的 3D 眼镜来过滤掉噪音。与其观察每一个细节(衬衫、帽子、鞋子),这副眼镜将人群压缩成一个简单清晰的模式。他们发现,尽管有数千种蛋白质,但“健康”的蛋白质实际上遵循着少数几个简单的底层规则。他们将复杂的数据压缩成了更小、更易于理解的形状。
2. “单类”侦探(异常检测)
通常,为了抓捕罪犯,你会给警察展示许多不同罪犯的照片。但在这里,研究人员没有足够的“罪犯”(患病者)照片,因为疾病种类太多了。
- 解决方案: 他们使用了一种称为单类分类的方法。想象一名从未见过小偷的保安。相反,这名保安只接受过关于“正常、健康的访客”是什么样子的训练。如果有任何人走进来,不符合那个完美的“健康访客”模式,保安就会拉响警报。计算机不需要知道这个人得了什么病;它只需要知道这个人看起来“不健康”即可。
3. “自学”设置(数据驱动的参数)
通常,当你设置一台复杂的机器时,你必须基于试错来调整旋钮和拨盘(超参数),而且往往需要健康和患病者的示例才能将其调校正确。
- 解决方案: 研究人员创建了一个能够自我调校的系統。它只查看健康数据,并自行找出完美的设置,就像一位音乐家只需聆听房间的声学效果就能调准乐器,而无需参考音高。这确保了该系统完全基于“健康”的真相,而不受患病示例的任何偏见影响。
结果
团队使用真实的血液数据测试了这个系统。他们只利用健康人的数据训练计算机。然后,他们将各种各样的疾病抛给它——包括各种癌症甚至新冠病毒——而在训练过程中从未向计算机展示过这些疾病。
结果如何?该系统运作得完美无缺。因为它深入学习了“健康”的底层结构,所以它能够发现任何疾病何时破坏了这种结构,即使它从未见过那种特定的疾病。
总结
这篇论文提出了一种筛查疾病的新方法。他们不是试图学习每一种可能的疾病,而是构建了一个深刻理解“健康”的智能系统。如果你的血液蛋白质不符合“健康”模式,该系统就会将其标记为异常,无论具体是什么疾病导致了这种变化。这是一种稳健的、与疾病无关的血液异常检测方法。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。