Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对两个超级智能生物“大脑”的深度 X 光扫描。

想象一下，Geneformer和scGPT是两个经过海量生物数据（数百万个细胞）训练出来的超级 AI 模型。它们非常聪明，能识别细胞类型、预测基因变化。但科学家一直有个疑问：这些 AI 真的理解生物背后的“因果逻辑”吗？比如，它知道是“转录因子 A"直接指挥了“基因 B"工作吗？还是说它只是看到了 A 和 B 经常一起出现（统计相关性），就像看到“下雨”和“带伞”经常同时发生，却不知道是雨导致了带伞？

为了解开这个谜题，作者发明了一种叫**“稀疏自编码器”（SAE）**的“翻译器”。

1. 核心比喻：把“大杂烩”变成“独立积木”

原来的 AI 大脑（残差流）： 想象 AI 的神经元激活状态就像一锅大杂烩汤。所有的信息（基因、通路、功能）都混在一起，你很难分清哪勺汤里具体是哪个食材。传统的分析方法（像 SVD）就像是用大漏勺去捞，只能捞到汤里最显眼的几样东西，大部分细节都漏掉了。
SAE 的作用： 作者给这锅汤装了一个超级精密的**“分子筛”（SAE）。这个筛子能把大杂烩里的每一粒“生物概念”都单独挑出来，变成一块块独立的“乐高积木”**。
- 作者把 Geneformer 的 18 层和 scGPT 的 12 层都这样“拆解”了。
- 惊人的发现： 他们竟然拆解出了超过 10 万块独特的“生物积木”（特征）。

2. 主要发现：AI 脑子里有什么？

A. 惊人的“压缩术”（超叠加）

比喻： 想象 AI 只有1000 个抽屉（维度），但它却塞进了8 万多种不同的生物概念。
现象： 99.8% 的“积木”是传统方法看不见的。它们像幽灵一样，以极其精妙的方式重叠在同一个空间里。只有用 SAE 这个“超级放大镜”才能把它们一个个分离出来。这说明 AI 的“内存”利用率极高，把海量知识压缩得令人发指。

B. 知识很丰富，但逻辑很“弱”

丰富的知识（好的一面）：
- 这些“积木”非常有组织。有的积木专门代表“细胞分裂”，有的代表“免疫反应”，有的代表“线粒体功能”。
- 它们像乐高城堡一样，层层递进：
  - 底层（早期层）： 像是具体的“砖块”和“螺丝”（分子机器、DNA 复制）。
  - 中层： 像是“抽象的图纸”（计算过程，很难直接对应到具体基因）。
  - 高层（晚期层）： 像是“完整的建筑”（细胞分化、信号传导）。
- 这证明 AI 确实背下了生物学的“百科全书”，知道哪些基因是一伙的（共表达），知道哪些通路是相关的。
缺失的逻辑（坏的一面）：
- 核心痛点： 当科学家给 AI 做“基因干扰实验”（比如敲除某个转录因子）时，AI 能感觉到“细胞状态变了”（它知道出事了），但它不知道具体是谁指挥了谁。
- 比喻： 就像 AI 看到“下雨了，大家带伞了”，它知道这两件事有关联。但如果有人问：“是谁命令大家带伞的？”AI 却答不上来。它没有掌握“因果律”。
- 数据说话： 在测试的 48 个关键转录因子中，只有6.2%（3 个）的 AI 反应能精准对应到它应该控制的基因。这说明 AI 学到的主要是“统计规律”，而不是“因果机制”。

3. 为什么 AI 学不会“因果”？

作者做了一个控制实验：

假设 1： 是不是因为训练数据（K562 细胞）太单一，导致 AI 没见过足够的场景？
验证： 作者用更多样化的细胞数据（免疫、肾脏、肺等）重新训练了“翻译器”。
结果： 即使换了更多样化的数据，AI 的“因果理解”能力只从 6.2% 提升到了 10.4%，依然很低。
结论： 问题不在数据，而在AI 模型本身。目前的训练方式（预测下一个基因）让 AI 学会了“猜词”（统计相关性），而不是“推理”（因果逻辑）。就像背单词书能帮你通过考试，但不会让你学会写小说。

4. 总结与启示

这篇论文做了什么？ 它给两个顶尖的单细胞 AI 模型做了最详细的“体检”，把它们的内部运作拆解成了10 万多个可解释的“生物积木”，并发布了在线网站，让任何人都可以像逛博物馆一样去探索这些积木。
核心结论：
1. AI 很博学： 它内部组织了极其丰富的生物学知识，知道基因之间的“朋友圈”和“层级关系”。
2. AI 不懂因果： 它目前还只是一个**“超级统计学家”，而不是“生物学家”**。它能告诉你“谁和谁常在一起”，但不知道“谁指挥了谁”。
未来方向： 要想让 AI 真正理解生命，未来的训练不能只让它“猜词”，必须加入**“干扰实验”**的数据，强迫它去学习因果逻辑。

一句话总结：
这两个 AI 模型像是一个背熟了所有生物教科书的学生，它能流利地背诵基因之间的关系，但如果你问它“为什么”，它却答不上来。这篇论文就是帮我们把它的“背诵内容”拆解开来，让我们看清它到底记住了什么，又缺了什么。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT》（稀疏自编码器揭示单细胞基础模型中组织化的生物知识但缺乏最小调控逻辑：Geneformer 与 scGPT 的比较图谱）的详细技术总结。

1. 研究背景与问题 (Problem)

背景：单细胞基础模型（scFMs），如 Geneformer 和 scGPT，在细胞类型注释、扰动响应预测和基因网络推断方面表现出卓越能力。这些模型在数百万个转录组数据上训练，学习了上下文相关的基因表示。
核心问题：这些模型学到的表示是否编码了因果调控逻辑（即转录因子 TF 与其靶基因之间的定向调控关系），还是仅仅反映了统计共表达模式（correlation）？
现有局限：
- 之前的研究主要关注注意力权重（attention weights），发现注意力主要捕获共表达而非独特的调控信号。
- 注意力权重只是模型内部计算的一个视角，**残差流（residual stream）**可能包含更丰富的结构。
- **超叠加（Superposition）**假设认为，当模型需要表示的概念数量超过其维度时，会将特征编码为激活空间中的近正交方向。传统的线性分解方法（如 SVD 或 PCA）无法解析这种结构。
- 稀疏自编码器（SAEs）虽在大型语言模型中成功用于解析超叠加，但尚未系统地应用于生物基础模型。

2. 方法论 (Methodology)

本研究首次将稀疏自编码器（SAEs）系统应用于两个架构截然不同的单细胞基础模型，构建了特征图谱（Feature Atlas）。

模型对象：
- Geneformer V2-316M：18 层，隐藏层维度 $d=1,152$ ，基于秩值（rank-value）token 和下一个 token 预测任务训练。
- scGPT whole-human：12 层，隐藏层维度 $d=512$ ，基于连续值（continuous-value）基因编码和掩码基因预测任务训练。
数据输入：
- Geneformer：2,000 个 K562 对照细胞（来自 Replogle CRISPRi 数据集）。
- scGPT：3,000 个 Tabula Sapiens 细胞（涵盖免疫、肾脏、肺等多种组织）。
SAE 训练架构：
- 在每一层的残差流激活值上训练 TopK 稀疏自编码器。
- 字典大小：4 倍过完备（Overcomplete），即 Geneformer 每层 4,608 个特征，scGPT 每层 2,048 个特征。
- 稀疏度：TopK $k=32$ （即每次前向传播仅激活 32 个特征）。
- 训练目标：最小化重构误差（MSE）。
分析流程：
1. 特征提取与注释：对每个存活特征（Alive features）提取 Top 20 激活基因，并在 5 个生物数据库（GO, KEGG, Reactome, STRING, TRRUST）中进行富集分析。
2. 超叠加量化：比较 SAE 特征与 SVD 主轴的对齐情况。
3. 共激活网络分析：计算点互信息（PMI），使用 Leiden 算法识别共激活模块（Co-activation modules）。
4. 因果干预（Causal Patching）：在特定层（Geneformer L11, scGPT L7）将单个特征的激活值置零，观察对输出 Logits 的影响，计算特异性比率。
5. 扰动响应映射：利用 CRISPRi 敲除数据，测试 SAE 特征是否对特定 TF 的靶基因产生特异性响应。
6. 多组织对照：训练多组织（K562 + Tabula Sapiens）SAE，以区分是模型表示的瓶颈还是 SAE 训练数据的限制。

3. 主要发现与结果 (Key Results)

3.1 巨大的超叠加现象 (Massive Superposition)

SVD 不可见性：99.8% 的 SAE 特征（82,336/82,525 个）无法被前 50 个 SVD 主轴捕获。
生物信号载体：这些“新颖”特征承载了 98.7% 的生物学注释信息，而 SVD 对齐特征仅占 14.3%。
压缩比：Geneformer 用 1,152 个维度编码了至少 82,525 个生物概念，压缩比超过 70 倍。

3.2 丰富的生物组织与层级抽象

U 型注释曲线：特征注释率呈现 U 型分布。早期层（L0-L4）编码分子机器（如细胞周期、DNA 复制）；中间层（L5-L9）注释率下降，代表抽象计算；晚期层（L10-L12）重新专业化，编码整合性细胞程序（如分化、信号传导）。
模块化结构：
- Geneformer 识别出 141 个 共激活模块，scGPT 识别出 76 个。
- 模块具有清晰的生物学身份（如 L0 的细胞周期模块，L11 的细胞分化模块）。
跨层信息高速公路：尽管特征在层间几乎不重叠（层间特征匹配率<3%），但 97.4%–99.8% 的特征通过功能连接形成了跨层信息流。

3.3 因果特异性与调控逻辑的缺失 (The Core Finding)

特征级因果性：
- 在 Geneformer 中，特征级消融（Causal Patching）显示出高度的因果特异性（中位数特异性比率为 2.36 倍，最高达 114.5 倍）。这表明模型内部确实存在针对特定生物过程的计算单元。
- 相比之下，scGPT 的因果信号较弱（中位数 0.98 倍），可能与其输入编码方式有关。
调控逻辑缺失：
- 当使用全基因组 CRISPRi 扰动数据测试时，模型未能编码因果调控逻辑。
- 关键数据：在 48 个 TRRUST 转录因子中，仅有 3 个 (6.2%) 的扰动引发了与其已知靶基因匹配的特征响应。
- 模型能检测到细胞状态的改变（92% 的扰动被检测到），但无法区分具体的调控靶点。
瓶颈确认：多组织 SAE 实验将特异性从 6.2% 仅提升至 10.4%，且增益非系统性。这证明瓶颈在于模型本身的表示，而非 SAE 方法或训练数据的局限性。

4. 主要贡献 (Key Contributions)

首个单细胞基础模型的 SAE 图谱：构建了包含超过 107,000 个 可解释特征的图谱（Geneformer 82,525 个，scGPT 24,527 个），跨越 30 个网络层。
揭示超叠加在生物学中的普遍性：证明了生物基础模型利用超叠加机制在低维空间中编码海量生物概念，且这些概念对传统线性方法不可见。
界定模型能力的边界：通过严格的因果测试，明确区分了模型已掌握的（共表达、通路成员、功能模块）和未掌握的（因果调控逻辑）。
交互式工具发布：发布了两个交互式 Web 平台（Geneformer Feature Atlas 和 scGPT Feature Atlas），允许社区探索这些特征、模块和跨层流动。
方法论验证：证明了 SAE 是解析 Transformer 类生物模型内部机制的有效通用框架，即使在不同架构（Rank-value vs. Continuous, 不同层数/维度）下也能复现一致的生物学组织模式。

5. 意义与启示 (Significance)

对基础模型训练的启示：当前的单细胞基础模型训练目标（如掩码预测、下一个 token 预测）倾向于学习统计共表达，而非因果调控。要获得真正的调控逻辑，可能需要引入**扰动预测（Perturbation Prediction）**等能够区分因果与相关性的训练目标。
对可解释性研究的影响：传统的注意力机制分析或线性探针可能严重低估模型学到的生物知识。SAE 提供了更深层的视角，揭示了模型内部真实的计算单元。
生物学发现：虽然模型缺乏因果逻辑，但其内部组织化的模块（如从分子机器到整合程序的层级抽象）为理解生物系统的层次化计算提供了新的视角。
未来方向：研究指出了从“相关性学习”向“因果性学习”转变的必要性，为下一代单细胞基础模型的设计指明了方向。

总结：该论文利用稀疏自编码器技术，深入剖析了 Geneformer 和 scGPT 的内部机制。研究发现这些模型内部拥有高度组织化、模块化的生物知识表示，并存在巨大的超叠加现象；然而，这些表示主要捕捉的是共表达结构和通路成员关系，缺乏对转录因子与靶基因之间因果调控逻辑的编码。这一发现为理解当前生物基础模型的能力边界提供了关键证据。