Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要解决了一个很实际的问题：当我们做科学实验（比如基因编辑）时，如何更精准地预测某个基因会被“打扰”成什么样，同时保证我们的预测是靠谱的？

为了让你轻松理解，我们可以把这篇论文的核心思想想象成**“在混乱的派对里找对的人聊天”**。

1. 背景：派对上的“基因”与“干预”

想象你正在参加一个巨大的基因派对（基因组），这里有成千上万个基因（客人）。

干预（Intervention）： 就像你往派对里扔了一个个“干扰球”（比如用 CRISPR 技术敲除某个基因）。
目标： 你想预测，当你扔出一个干扰球（比如敲除基因 A）时，另一个特定的基因（比如基因 B）会有什么反应？
挑战： 并不是所有的干扰球都会影响基因 B。有些干扰球扔出去，基因 B 根本不在乎（它不受影响）；但有些干扰球扔出去，基因 B 就会大乱（它是受影响者）。

2. 传统方法的痛点：大锅饭

以前，科学家为了预测基因 B 的反应，会把所有扔干扰球的实验数据混在一起（大锅饭），算出一个平均的“安全范围”。

问题： 这就像你想预测“下雨天”的湿度，却把“晴天”和“雨天”的数据混在一起算。结果算出来的范围太宽了，不够精准，没法告诉你明天到底会不会淋湿。
理想情况： 如果只拿那些确实没影响基因 B的“晴天”数据来算，预测范围就会窄很多，更精准。

3. 核心难题：谁是“晴天”？

这就引出了论文要解决的核心难题：我们怎么知道哪些干扰球是“晴天”（不影响基因 B），哪些是“雨天”（影响基因 B）？

在复杂的生物网络里，这就像在一个巨大的迷宫里找路。通常我们需要画出整个迷宫的地图（完整的因果图），但这太难、太慢，而且容易画错。
一旦画错了地图，把“雨天”误当成“晴天”混进数据里，预测就会失效（就像用湿衣服的数据去预测晴天，结果你会以为明天也会淋湿，预测就崩了）。

4. 论文的三大贡献：聪明的“半吊子”策略

这篇论文提出了一个非常聪明的“偷懒”策略，不需要画完整个迷宫地图，只需要知道**“谁和谁有关系”**这一点点信息就够了。

贡献一：给错误“买保险”（鲁棒性定理）

作者发现，就算我们猜错了，混进了一些“雨天”数据（这叫污染），只要混进去的比例不太大，我们的预测依然有底线保障。

比喻： 就像你开了一家餐厅，虽然偶尔会混进几个坏苹果（污染数据），但只要你有一个**“坏苹果补偿公式”**，你就能算出：哪怕混进了 30% 的坏苹果，你的果汁依然能保证 95% 是安全的。
作用： 这个公式（定理 1）告诉我们要预留多少“安全余量”。如果混进去的坏苹果太多，我们就自动把预测范围拉大，宁可不准，也不能出错。

贡献二：只问“是或否”，不画全图（任务驱动）

以前的方法非要画出完整的因果地图（谁导致谁），这太难了。

新策略： 我们不需要知道整个迷宫的地图，只需要回答一个简单的问题：“这个干扰球会不会影响到那个基因？”（是/否）。
比喻： 就像你想找朋友聊天，不需要认识派对上所有人的关系网，只需要知道**“张三会不会理我”**。如果张三不理我，我就找他；如果张三理我，我就换个人。这种“二元判断”比画全图简单得多，也更容易做对。

贡献三：用“交集”来猜（算法）

怎么判断“张三理不理我”呢？作者用了两个聪明的办法：

找共同点（交集法）： 如果干扰球 A 和干扰球 B 都影响了基因 C，那么 A 和 B 之间很可能有某种联系。通过比较不同干扰球影响的基因列表，找出它们的共同交集，就能排除掉那些瞎猜的干扰球，精准锁定目标。
- 比喻： 就像侦探破案，如果嫌疑人 A 和 B 都去过案发现场，那他们很可能是一伙的。通过交叉比对，排除掉那些只去过一次的人。
局部搜索（距离法）： 不需要知道整个迷宫，只需要知道离目标有多远。通过局部的小范围搜索，估算干扰球离目标基因有多“远”。

5. 实验结果：真的管用吗？

作者在电脑模拟（合成数据）和真实的基因实验数据（CRISPR 干扰实验）上测试了这个方法：

模拟实验： 即使故意混入 30% 的错误数据（坏苹果），经过“补偿公式”修正后的预测，依然能保持 95% 以上的准确率。而如果不修正，准确率就会掉到 86% 左右。
真实数据： 在真实的基因筛选实验中，只有使用了这种“修正后”的方法，预测结果才超过了理论上的及格线（90%），其他方法都失败了。

总结

这篇论文就像给科学家提供了一套**“防错指南”**：

别想画全图： 我们不需要知道所有复杂的因果关系，只需要知道“谁影响谁”这个简单的二元关系。
允许犯错： 我们承认可能会猜错，但有一个数学公式能告诉我们，猜错了多少，以及需要把预测范围拉大多少来弥补。
结果更准： 通过只挑选“真正安全”的数据，我们能让预测结果变得更精准、更窄，同时保证不会出错。

这就好比在迷雾中开车，以前我们只能开得很慢（范围很宽）以防万一；现在有了这个新方法，我们虽然知道迷雾里可能有假路标（错误数据），但我们知道怎么调整方向盘，既能开得稍微快一点（范围更窄），又能保证不翻车。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“干预下有效选择性共形推断的部分因果结构学习”**（Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions）的方法。该方法旨在解决在基因扰动等干预性实验中，如何利用因果结构信息来构建更紧致的不确定性区间，同时保证统计覆盖率的有效性。

以下是该论文的详细技术总结：

1. 研究背景与问题定义

背景：共形预测（Conformal Prediction, CP）是一种分布无关的量化不确定性方法，能在有限样本下提供边际覆盖率保证。然而，标准 CP 假设数据是同分布且可交换的（exchangeable）。
挑战：在干预性实验（如单细胞基因扰动筛选 Perturb-seq）中，数据通常来自不同的干预环境。对于特定的目标基因 $i$ $i$ ，某些干预（祖先节点）会改变其表达分布，而另一些干预（非后代节点）则不会。
- 如果将所有干预混合在一起进行校准（Pooled CP），会导致预测区间过宽，因为混合了受干扰和未受干扰的残差。
- 选择性共形预测（Selective CP） 理论上可以通过仅使用与测试点“可交换”的校准子集（即未受该干预影响的目标基因）来获得更紧致的区间。
核心难点：在实际应用中，因果结构（即哪些基因是哪些干预的后代）通常是未知的。完全学习高维因果图既困难又昂贵，且学习错误会破坏选择性校准的有效性，导致覆盖率下降。
目标：在因果结构未知且必须从数据中学习的情况下，如何设计算法以控制校准集的“污染”（即错误地将受影响的干预纳入校准集），从而保证有效的覆盖率并缩小预测区间。

2. 核心方法论

2.1 $\delta$ -鲁棒性覆盖率定理 (Theorem 1)

作者首先建立了一个理论框架，量化了校准集被“污染”（即包含错误分类的干预）对覆盖率的影响。

定义：设 $\delta$ 为校准集中被错误分类为“未受影响”（实际上受影响）的干预比例（污染分数）。
定理：证明了在有限样本下，覆盖率的下界为 $1 - \alpha - g(\delta, n)$ $1 - α - g (δ, n)$ ，其中 $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ $g (δ, n) = \frac{δ n}{( 1 - δ ) n + 1}$ 。
- 该界限是分布无关的，且当 $\delta=0$ 时恢复为标准的 $1-\alpha$ 。
- 启示：只要控制污染分数 $\delta$ 足够小，就可以通过调整名义置信水平 $\alpha' = \alpha - g(\hat{\delta}, n)$ 来校正覆盖率，确保实际覆盖率不低于 $1-\alpha$ 。

2.2 任务驱动的局部因果学习 (Task-Driven Partial Causal Learning)

为了避免学习完整的因果图，作者提出将问题转化为二元分类任务：

目标：仅需估计二元指示变量 $Z_{a,i} = \mathbb{I}\{i \in \text{desc}(a)\}$ （即干预 $a$ 是否影响目标 $i$ ），而非整个有向无环图（DAG）。
误差控制：重点控制假阳性率（FPR）。因为将受影响的干预误判为未受影响（FP）会直接导致校准集污染（增加 $\delta$ ），而将未受影响的误判为受影响（FN）仅会减少校准集大小，不会破坏覆盖率。因此，分类器应采取保守策略。

2.3 算法实现

作者提出了两种互补的算法来估计 $Z_{a,i}$ ：

基于扰动交集模式的后代发现 (Algorithm 1)：
- 原理：利用不同干预下的差异表达基因集（DEG sets, $S_a$ ）。如果 $b$ 是 $a$ 的上游干预，那么 $a$ 的后代集合应该是 $S_a$ 和所有上游 $S_b$ 的交集的子集。
- 步骤：对于每个干预 $a$ ，找到所有影响 $a$ 的上游干预集合 $U(a)$ 。后代集合估计为 $\hat{\text{desc}}(a) = S_a \cap \bigcap_{b \in U(a)} S_b$ 。
- 优势：通过集合交集操作，有效剔除了假阳性（Spurious entries），因为真正的后代会在多个上游干预中一致出现，而噪声则不会。
局部不变因果预测 (Local ICP, Algorithm 2)：
- 用于估计干预到目标的“距离”（路径长度），以便进行加权共形校准，进一步优化区间宽度。

3. 主要贡献

理论界限：提出了针对选择性共形预测的 $\delta$ -鲁棒性覆盖率定理，给出了污染分数与覆盖率损失之间的显式函数关系，并提供了有限样本下的校正方案。
任务驱动的学习范式：将复杂的因果图学习简化为针对特定目标的后代指示变量估计，显著降低了计算复杂度，并明确了控制假阳性率的重要性。
高效算法：设计了基于集合交集的后代发现算法和基于局部 ICP 的距离估计算法，并给出了在特定假设下控制污染分数的恢复条件（Recovery Conditions）。
实证验证：在合成数据和真实生物数据上验证了方法的有效性。

4. 实验结果

4.1 合成数据实验 (Synthetic Linear SEMs)

设置： $p=200$ 个节点，150 种干预。
发现：
- 污染的影响：随着人为注入的污染分数 $\delta$ 从 0 增加到 0.30，未校正的选择性 CP 覆盖率从 0.905 单调下降至 0.867，验证了理论定理。
- 校正的有效性：应用理论校正后的方法（Corrected procedure）在所有非零污染水平下均保持了 $\ge 0.95$ 的覆盖率（高于名义上的 0.90），尽管区间宽度增加了 1.2-1.8 倍。
- 算法表现：基于交集的算法在稀疏网络中表现优异，估计的污染分数极低（ $\hat{\delta} \approx 0.018$ ）。

4.2 真实数据实验 (Replogle K562 CRISPRi)

数据：Replogle 等人的 K562 细胞系全基因组 CRISPRi 筛选数据。
结果：
- 校正后的方法是唯一一种在真实扰动数据上超过名义覆盖率（0.906 vs 0.9）的方法。
- 挑战：由于真实数据中存在批次效应和间接效应，破坏了严格的交换性假设，导致“代理 Oracle"的覆盖率仅为 0.864。
- 可行性：校正方法在约 60% 的评估中可行（产生有限区间），其余情况因校正过于严格导致区间无限大。这反映了在有限校准样本下，为了严格保证覆盖率所需的保守性代价。

5. 意义与结论

科学意义：该研究为在因果结构未知的干预性实验中应用共形预测提供了理论保障和实用工具。它证明了即使无法完美恢复因果图，只要控制特定的错误类型（假阳性），依然可以获得有效的不确定性量化。
应用价值：在基因功能筛选、药物靶点发现等需要高置信度预测的领域，该方法能帮助研究人员在保持统计严谨性的同时，获得比传统混合方法更精确的预测区间，从而优化实验设计。
未来方向：包括在良性污染模型下推导更紧的界限、改进局部距离估计器的一致性分析，以及结合主动实验设计（Active Experimental Design）以最小化所需的扰动实验数量。

总结：这篇论文通过理论推导和算法设计，成功解决了“在未知因果结构下进行选择性共形推断”的难题，提出了一种通过控制分类误差来保证统计有效性的鲁棒框架，并在真实的基因组学数据中展示了其应用潜力。