Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对人工智能“大脑”内部 wiring（布线）的 X 光扫描。

想象一下，科学家给两个超级聪明的 AI 生物学家（一个叫 Geneformer，一个叫 scGPT）做了一次“脑部手术”。这两个 AI 都读过海量的细胞数据，能预测细胞的行为。但科学家想知道：它们到底是怎么思考的？它们内部的“神经元”是如何互相传递信息的？

为了搞清楚这一点，作者发明了一种叫"因果电路追踪"（Causal Circuit Tracing）的新方法。

1. 核心实验：拔掉一根线，看会发生什么

想象你面前有一个巨大的、由无数根电线连接的黑盒子（AI 模型）。

传统方法只是看哪些电线经常同时亮起（相关性），但这就像看两个人经常一起走路，不知道是谁带着谁走。
新方法（因果追踪）则是：科学家故意“拔掉”（抑制）其中一根特定的电线（也就是 AI 内部的一个特征），然后观察黑盒子后面的其他电线发生了什么变化。
- 如果拔掉 A，B 就熄灭了，说明 A 是 B 的“电源”。
- 如果拔掉 A，B 反而更亮了，说明 A 原本在“压制”B。

他们在这个实验中“拔掉”了成千上万根线，记录了 96,892 条因果关系，绘制出了这两个 AI 的“思维电路图”。

2. 主要发现：AI 的“思维习惯”

A. 它们都是“消极”的（抑制主导）

最惊人的发现是：这两个 AI 的电路主要是“抑制性”的。

比喻：想象一个交响乐团。大多数时候，乐手们并不是在互相“加油”（兴奋），而是在互相“踩刹车”（抑制）。
含义：在 AI 的世界里，如果一个特征被激活（比如“细胞正在修复 DNA"），它通常会抑制掉那些不相关的特征。只有当“刹车”被松开时，其他特征才会活跃。
数据：大约 65% 到 89% 的电路连接都是这种“抑制”关系。这意味着 AI 认为：“知道什么不发生”比“知道什么发生更重要”。

B. 两个 AI 的“性格”截然不同

虽然它们都懂生物学，但它们的“大脑结构”完全不同：

Geneformer（像一位严谨的图书管理员）：
- 核心关注点：染色质（DNA 的包装方式）和 RNA 处理（基因的转录）。
- 性格：它更像是一个合作型的系统，依赖大量的特征互相配合。它的“抑制”比例很高（80%），说明它非常依赖“排除法”来思考。
- 枢纽：它的核心枢纽是“高尔基体”（细胞内的物流站）和"RNA 剪接”。
scGPT（像一位充满活力的能量工程师）：
- 核心关注点：线粒体和能量代谢（细胞的能量工厂）。
- 性格：它更像是一个竞争型的系统。它的特征之间互相“打架”更多（抑制比例较低，约 65%），谁强谁就赢。
- 枢纽：它的核心枢纽是“线粒体电子传递链”（能量生产）。
- 有趣点：scGPT 的单个特征影响力更大，就像它的“神经元”更粗壮，说话声音更大。

C. 它们都学会了“生物学的真理”

尽管性格不同，但它们学到的核心逻辑却惊人地一致：

时间顺序：两个 AI 都完美地复现了生物学的时间线。
- 比喻：就像看一部电影，AI 的“第一层”处理的是“信号接收”（比如 MAPK 信号通路），中间层处理“染色质修改”，最深层处理“基因表达输出”。
- 验证：它们都发现：DNA 损伤检测 必须先于 细胞周期停止。这就像 AI 自己悟出了“先发现火灾，再拉响警报”的逻辑，而且这种逻辑在两个不同的 AI 大脑里是通用的。
共识：它们找到了 1,142 对完全一致的“因果关系”，这比随机猜测高了 10 倍。这说明 AI 真的学到了真实的生物学知识，而不是在胡编乱造。

3. 局限性：它们懂“道理”，但不懂“具体操作”

这是论文最诚实也最重要的部分。

好消息：AI 在宏观层面（比如“细胞周期”和"DNA 修复”这两个过程）非常懂行，能准确画出它们的关系图。
坏消息：在微观层面（具体的基因 A 是否直接导致基因 B 变化），AI 的表现并不完美。
- 比喻：AI 知道“下雨会导致地湿”（宏观规律），但如果你问它“哪一滴雨滴落在了哪一块石头上”（具体基因调控），它经常猜错。
- 原因：这些 AI 主要是通过学习基因之间的共表达（一起出现）来训练的，而不是学习真正的因果调控。它们更像是一个超级聪明的“观察者”，而不是一个“实验者”。

4. 总结：这对我们意味着什么？

这篇论文告诉我们：

AI 真的“懂”生物学：它们内部确实构建了符合真实生物逻辑的复杂电路，而且这种逻辑是跨模型通用的。
不同的 AI 有不同的“世界观”：有的 AI 从能量角度理解细胞，有的从基因包装角度理解。这取决于它们是怎么被训练的。
未来的方向：虽然 AI 目前还不能完美预测具体的基因实验结果，但它们已经为我们提供了一张极其珍贵的“生物思维地图”。这张地图能帮我们发现以前没注意到的生物学联系（比如线粒体如何影响蛋白质运输），为科学家提出新的假设提供了灵感。

一句话总结：
科学家通过“拔掉电线”的方法，发现两个不同的 AI 生物学家虽然性格迥异（一个重能量，一个重基因），但它们都学会了生物界最核心的“抑制性”思维逻辑，并且都掌握了从信号接收到基因表达的完整时间线。虽然它们还无法精准预测每一个具体的基因实验，但它们已经为我们绘制出了一幅前所未有的、真实的生物思维地图。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：稀疏自编码器（Sparse Autoencoders, SAEs）已被成功应用于将基础模型（Foundation Models）的激活分解为可解释的单体语义特征（monosemantic features）。之前的研究（如作者的另一项工作）已经为 Geneformer 和 scGPT 这两个单细胞基础模型构建了特征图谱，揭示了它们编码了丰富的生物学知识（如通路成员、蛋白互作等）。
核心问题：尽管已知模型“有什么”特征以及“在哪里”，但特征与特征之间在深度网络中的因果相互作用（Causal Feature-to-Feature Interactions）仍然未知。
- 现有的统计共激活分析（如点互信息 PMI）只能揭示相关性，无法区分因果关系或确定信息流动的方向和幅度。
- 缺乏对模型内部“计算图”（Computational Graph）的因果理解，限制了机制可解释性（Mechanistic Interpretability）在生物学领域的应用。
目标：引入一种新的方法，系统地追踪生物基础模型中特征间的因果电路，揭示模型如何将基因级输入转化为上下文预测，并比较不同模型架构（Geneformer vs. scGPT）的计算策略差异。

2. 方法论 (Methodology)

作者提出并应用了**因果电路追踪（Causal Circuit Tracing）**方法：

实验设计：
- 模型：Geneformer V2-316M（18 层）和 scGPT Whole-Human（12 层）。
- SAE 配置：使用了四种实验条件，包括不同细胞类型（K562 细胞系 vs. Tabula Sapiens 多组织）和不同 SAE 训练数据（仅 K562 训练 vs. 多组织混合训练）。
- 数据规模：共涉及 96,892 条因果边，80,191 次前向传播。
因果追踪算法：
- 源特征消融（Ablation）：在特定层（Source Layer）选择特定的 SAE 特征，将其激活值置零（ $z_f \leftarrow 0$ ），通过解码器重构隐藏状态，计算与原始状态的差异（ $\delta$ ）。
- 下游测量：将修改后的隐藏状态输入后续所有层，并编码为下游 SAE 特征。
- 统计量计算：计算源特征消融对下游特征激活的影响，使用 Cohen's d 衡量效应量大小，使用 一致性（Consistency） 衡量方向稳定性。
- 显著性判定：保留 $|d| > 0.5$ 且一致性 $> 0.7$ 的边作为显著因果边。
验证与扩展：
- 生物学一致性：检查因果边的源和目标特征是否共享生物学本体论注释（GO, KEGG, Reactome 等）。
- 跨模型共识：比较 Geneformer 和 scGPT 中发现的因果电路，寻找保守的生物学通路。
- 基因级验证：利用 Replogle 全基因组 CRISPRi 扰动数据，验证电路预测的基因对是否具有真实的因果调控关系。

3. 主要发现与结果 (Key Results)

3.1 独特的计算架构：抑制主导与不同动态

抑制主导（Inhibitory Dominance）：两个模型均表现出显著的抑制性主导特征。
- Geneformer：约 80% 的因果边为抑制性（负向）。
- scGPT：约 65.5% 为抑制性。
- 含义：特征编码的是“必要信息”。移除一个特征会导致依赖它的下游特征激活降低，而非释放容量。
架构差异：
- Geneformer：具有合作型、依赖型架构（80/20 抑制/兴奋比），效应量中等（ $|d| \approx 1.05$ ）。
- scGPT：具有更竞争性的动态（65/35 抑制/兴奋比），效应量更强（ $|d| \approx 1.40$ ），且更平衡。

3.2 生物一致性与跨模型收敛

生物一致性（Biological Coherence）：约 53% 的因果边连接了共享生物学注释的特征。这一比例在不同模型、不同细胞类型和不同 SAE 训练数据下保持高度稳定，表明这是生物知识组织的结构性属性。
多组织 SAE 的优势：使用多组织数据训练的 SAE 能产生更清晰的电路（一致性提升至 68.8%），且电路密度更高，说明 SAE 的训练数据质量直接影响可解释性。
跨模型共识：Geneformer 和 scGPT 独立发现了 1,142 对保守的生物学域（Domain）因果对，富集倍数达 10.6 倍（ $p < 0.001$ ）。这表明尽管架构不同，两者都收敛于真实的生物学功能关系。

3.3 具体的生物学电路发现

DNA 损伤响应（DDR）级联：清晰重现了从 DNA 损伤检测（L0） $\to$ 检查点激活（L5） $\to$ 细胞周期阻滞（L17）的完整生物学过程，甚至发现了“跳跃连接”（Skip connections）。
Hub 特征差异：
- Geneformer 的 Hub 集中在染色质组织、RNA 处理和生长因子响应。
- scGPT 的 Hub 集中在线粒体电子传递（能量代谢）和 rRNA 加工，反映了能量状态作为细胞核心变量的重要性。
跨域协调：发现了连接不同生物学领域的电路（如 MAPK 信号通路协调多种下游过程），暗示模型学习了超越传统通路边界的协调机制。

3.4 基因级预测的局限性

方向准确性低：在基因层面，电路预测的因果方向与 CRISPRi 扰动结果的吻合度仅为 56.4%（略高于随机猜测的 50%）。
幅度相关性近零：效应量大小与扰动响应的相关性几乎为零。
结论：这些模型主要编码的是**共表达（Co-expression）**关系，而非严格的因果调控逻辑。它们知道哪些过程相关，但不能可靠地预测特定基因扰动后的具体分子后果。

3.5 疾病相关性的发现

与疾病相关的生物学域在电路图中处于更中心的位置（Hub 地位），且跨模型共识的可能性是其他领域的 3.59 倍。这表明与人类疾病最相关的生物学过程在模型中被编码得最稳健。

4. 核心贡献 (Key Contributions)

方法创新：首次将因果电路追踪（Causal Circuit Tracing）应用于单细胞基础模型，从特征层面揭示了生物信息处理的“布线图”。
架构对比：揭示了 Geneformer 和 scGPT 在计算策略上的根本差异（合作依赖型 vs. 竞争动态型），并指出了 SAE 训练数据对可解释性结果的关键影响。
生物学发现：
- 系统性地验证了模型内部编码了真实的生物学级联（如 DDR、神经发育 - 蛋白稳态耦合）。
- 发现了 29,864 条潜在的新颖生物学关系（Novel Relationships），特别是跨细胞器/跨通路的耦合（如线粒体能量状态驱动蛋白质运输）。
- 确认了疾病相关过程在模型中的核心地位。
可解释性原则：确立了特征（Features）而非组件（Components，如注意力头）是生物计算的自然单元；证明了统计共激活与因果追踪是互补的。

5. 意义与影响 (Significance)

机制可解释性的新范式：该研究证明了利用 SAE 和因果干预可以深入理解生物大模型的内部工作机制，超越了传统的黑盒分析。
模型选择与训练指导：研究指出，为了获得更清晰的生物学解释，使用多样化细胞类型训练的 SAE 至关重要。同时，不同架构的模型可能捕捉到生物学的不同侧面（如 scGPT 对能量代谢的敏感，Geneformer 对转录调控的敏感）。
假设生成工具：虽然模型不能直接替代实验进行精确的基因级因果预测，但其发现的跨域电路和保守通路为生成新的生物学假设（Hypothesis Generation）提供了强有力的线索，特别是那些传统数据库尚未收录的复杂关系。
局限性认知：明确了当前基础模型在“共表达”与“因果调控”之间的界限，提醒研究者在使用模型进行干预预测时需保持谨慎。

总结

这篇论文通过引入因果电路追踪技术，深入剖析了单细胞基础模型的内部计算逻辑。它不仅揭示了模型如何以“抑制主导”的方式组织生物信息，还通过跨模型对比验证了生物知识组织的普遍性。尽管模型在基因级因果预测上存在局限，但其在系统生物学层面捕捉到的复杂级联和跨域协调关系，为理解细胞状态转换和疾病机制提供了全新的计算视角。