Signal, Bounds, and Baselines: Principles for Evaluating Virtual Cell… — 通俗解释

想象一下，你正在尝试教计算机预测：当你用某种特定药物刺激活细胞，或改变其环境时，细胞将如何反应。科学家将这种模型称为“虚拟细胞”。其目标是让计算机查看成千上万个基因的列表，并给出这样的判断：“如果我们执行 X，细胞将发生 Y 样的变化。”

然而，本文作者正在发出警报：我们可能正在自欺欺人，误以为这些计算机比它们实际更聪明。

以下是他们论证的要点，辅以简单的类比：

基因表达数据就像一个巨大的房间，里面挤满了 20,000 个人（基因），所有人都在同时大声喊叫。当你引入新的刺激（扰动）时，只有少数几个人改变了音量（这些是“信号”），而其余的人继续发出同样的旧噪声。

目前的计算机模型通常根据其预测“整个房间”噪声的能力来评判。由于房间如此嘈杂且混乱，计算机只需猜测背景噪声就能获得“高分”，却完全忽略了那些真正改变想法的少数人。这就像一位天气预报员，虽然未能预测出真正重要的突发风暴，却因预测了“多云”而得了 A+。

为了解决这一问题，作者提出了一套名为SBB（信号、界限和基线）的新规则，以公平地测试这些模型。

1. 信号：调谐收音机

类比：想象你试图在收音机里收听一首特定的歌曲，但电台充满了杂音。如果你只是收听整个广播，可能会误以为歌曲很清晰，而实际上它已被淹没。
对策：“信号”规则要求我们只调高那些真正发生变化的基因（即“差异表达基因”）的音量，而忽略其余部分。这确保计算机真正学习的是生物学变化，而不仅仅是死记硬背背景噪声。

2. 界限：尺子

类比：如果一个学生在考试中得了 85 分，这算好吗？这取决于情况。如果考试难如登天，平均分只有 10 分，那么 85 分就是奇迹；如果考试很简单，平均分是 90 分，那么 85 分就是失败。
对策：“界限”规则要求我们需要一把尺子。我们将计算机的预测结果与真实世界的数据点进行对比，以确切了解它们偏离了多少。这将一个令人困惑的数字转化为清晰的陈述：“该模型比现实好这么多”，或者“它比现实差这么多”。

3. 基线：“奶奶”测试

类比：在你聘请高科技 AI 驾驶你的汽车之前，你应该先检查一下，一个简单、老式的 GPS（甚至是一个拿着地图的人）是否也能胜任。如果花哨的 AI 连简单的 GPS 都赢不了，那我们为什么要使用 AI？
对策：“基线”规则迫使研究人员将他们复杂的深度学习“超级计算机”与非常简单、易于理解的数学模型（线性模型）进行对比。这些简单模型充当了“地板”。如果花哨的 AI 无法跳过这块地板，那它就并没有真正学到任何新东西。

当作者将这三大规则应用于七个不同的数据集（测试对细胞进行单次和双次改变）时，他们发现了一个令人惊讶的事实：

那些花哨、复杂的 AI 模型往往无法胜过简单、老式的数学模型。

在许多情况下，利用深度学习构建的“虚拟细胞”在预测未来方面，实际上并不比简单的直线猜测更好。即使它们确实获胜，其优势也往往远小于原始论文所声称的。

本文并非主张停止构建“虚拟细胞”。相反，它指出我们需要停止使用损坏的尺子。通过采用SBB 原则，科学家终于能够区分出哪些模型真正在学习生物学，而哪些模型仅仅擅长猜测噪声。在我们做到这一点之前，我们无法确定我们的“虚拟细胞”是否真的在起作用。

Signal, Bounds, and Baselines: Principles for Evaluating Virtual Cell Perturbation Models