Conformal e-prediction in the presence of confounding

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且实用的问题：当我们想要预测未来（比如预测某种治疗的效果）时，如果过去的观察数据里藏着“干扰因素”，我们该如何保证预测是靠谱的？

为了让你轻松理解，我们可以把这篇论文的核心思想想象成**“在嘈杂的菜市场里预测明天的菜价”**。

1. 核心场景：被“干扰”的预测

想象你是一位想预测明天蔬菜价格的“预言家”。

X（干预变量）：你决定明天去哪个摊位买菜（比如去 A 摊位）。
Y（结果变量）：你买到的菜的价格。
Z（干扰因素/混杂因子）：天气。

问题出在哪？
在现实世界（观察性研究）中，你去哪个摊位（X）往往不是随机的，而是受天气（Z）影响的。

如果下雨（Z），大家都挤去有棚子的 A 摊位，导致 A 摊位菜价（Y）看起来很高。
如果晴天，大家去露天 B 摊位，B 摊位菜价看起来便宜。

如果你直接看历史数据，你会误以为"A 摊位的菜天生就贵”。但实际上，如果明天你强行决定去 A 摊位（干预），而天气变了，价格可能完全不同。这就是论文里说的**“混杂（Confounding）”**：天气（Z）同时影响了你去哪（X）和价格（Y），让你看不清 X 和 Y 的真实关系。

2. 论文的目标：在“切断”干扰后做预测

这篇论文的目标是：即使历史数据被天气（Z）搞乱了，我们也能算出：“如果我明天强行去 A 摊位（设定 X=x），不管天气如何，菜价（Y）大概是多少？”

他们使用了一种叫**“共形 e-预测（Conformal e-prediction）”**的方法。

通俗比喻：这就像是一个**“超级严谨的保险精算师”。传统的预测方法可能会说：“根据过去，A 摊位平均 10 元。”但这位精算师会说：“我敢打赌，如果你去 A 摊位，价格不会**超过某个范围，而且我敢用数学证明，我输的概率极低。”
e-变量（e-variable）：你可以把它想象成一种**“风险筹码”**。如果预测错了，这个筹码就会变得很大（比如变成 100 倍）；如果预测对了，筹码就很小。论文保证的是：长期来看，这个筹码的平均值不会超过 1。这意味着你的预测非常“诚实”，不会过度自信。

3. 论文的两个主要贡献

第一部分：数据是“随机且独立”的（标准情况）

假设过去 N 天的数据是随机收集的，虽然被天气干扰了，但每天之间互不影响。

做法：作者发明了一个简单的公式（公式 2），像是一个**“智能过滤器”**。
- 它先统计：在晴天（Z=z）时，去 A 摊位（X=x）的人多吗？
- 再统计：在晴天去 A 摊位的人里，菜价是 10 元（Y=y）的多吗？
- 最后把这些碎片拼起来，算出一个**“修正后的概率”**。
结果：这个修正后的概率（ $F_y$ ）虽然只是估计值，但作者证明了它非常“保守”。用它来构建预测区间（比如“价格会在 8-12 元之间”），能保证在数学上是绝对安全的。

第二部分：数据是“有策略”的（更复杂的情况）

在现实中，去哪个摊位可能不是随机的，而是有人故意安排的策略（比如为了测试新政策，特意在某些日子去 A 摊位）。

挑战：如果去摊位的选择（X）是有人为策略的，甚至可能根据过去的历史（比如昨天去 A 太贵了，今天特意不去）来调整，传统的统计方法就失效了。
创新：作者提出了一种**“遗忘过去结果”**的视角（Y-oblivious）。
- 比喻：想象你是一个**“失忆的指挥官”。你可以根据过去的天气（Z）和之前的摊位选择（X）来决定今天的行动，但你完全不知道**之前的菜价（Y）是多少。
- 在这种设定下，作者证明了，即使有人为策略，只要你不根据“过去的价格”来调整策略，上面的那个“智能过滤器”依然有效！这大大扩展了方法的适用范围。

4. 为什么要关心这个？（现实意义）

这篇论文解决的是因果推断中的痛点。

传统做法：医生看历史病历，发现“吃某种药的人康复率高”。但这可能是因为生病轻的人才吃这个药（混杂因素）。
这篇论文的做法：它提供了一种数学工具，让你能自信地说：“如果我们强制给所有病人（不管病情轻重）都吃这个药，康复率会是多少？”并且，它给出的不是模糊的“可能”，而是带有严格数学保证的“安全范围”。

总结

这篇论文就像是在教我们如何在充满噪音和干扰的旧数据中，提炼出纯净的因果规律。

核心隐喻：它像是一个**“去噪耳机”**，帮你过滤掉“天气”（混杂因子 Z）对“摊位选择”（X）和“菜价”（Y）的虚假关联。
最终成果：它给了你一个**“带担保的预测区域”**。只要你按照它的方法操作，你就可以自信地告诉决策者：“如果我们进行这项干预，结果大概率会落在这个盒子里，而且我敢用数学证明这个盒子不会轻易被打破。”

这对于医疗、政策制定、经济学等领域非常重要，因为它让基于数据的决策变得更加安全、可靠且可解释。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem)

在标准的共形预测（Conformal Prediction）中，通常假设观测数据是独立同分布（IID）的。然而，在因果推断领域，研究者通常面临以下挑战：

混杂因素（Confounding）： 随机变量 $X$ （处理变量）和 $Y$ （结果变量）之间存在共同原因 $Z$ （混杂变量），导致观测数据中的相关性不能直接反映因果效应。
干预预测（Interventional Prediction）： 目标是在设定 $X=x$ 的干预条件下，对 $Y$ 进行预测（即计算 $P(Y|do(X=x))$ ），而不仅仅是基于观测数据 $P(Y|X=x)$ 进行预测。
数据依赖性与策略性选择： 在某些场景下， $X$ 的取值并非由稳定的随机机制生成，而是由某种策略（可能依赖于历史数据）决定，这违反了标准 IID 假设。

核心问题： 如何在存在观测混杂 $Z$ 的情况下，利用观测数据构建具有有限样本有效性保证（Finite-sample validity guarantees）的因果预测区域（Prediction Regions）？

2. 方法论 (Methodology)

论文提出了基于**共形 e-预测（Conformal e-prediction）和e-变量（e-variables）**的方法。

2.1 核心概念

e-变量 (e-variable)： 一个非负随机变量 $E$ ，若其在零假设下的期望值 $E[E] \le 1$ ，则称为 e-变量。e-变量是构建假设检验和置信集的有力工具，比传统的 p-值更灵活。
因果图模型： 论文基于图 1 所示的简单因果图： $Z \to X$ ， $Z \to Y$ ， $X \to Y$ 。目标是估计在 $X$ 被设定为 $x$ （切断 $Z \to X$ 的箭头）后的 $Y$ 的分布。

2.2 两种设定场景

场景一：标准 IID 设定 (The IID setting)

假设： 观测数据 $(X_n, Y_n, Z_n)$ 是独立同分布的，来自联合分布 $P$ 。
目标分布估计： 定义干预后 $Y$ 的概率为 $p_y = \sum_z P(Z=z)P(Y=y|X=x, Z=z)$ （即后门调整公式）。
估计量构造： 提出了一种平滑的估计量 $F_y$ 来估计 $p_y$ ：
$F_y := \sum_{z \in Z} \frac{|\{n: Z_n=z\}| + 1}{N + 1} \times \frac{|\{n: (X_n, Y_n, Z_n) = (x, y, z)\}| + 1}{|\{n: (X_n, Z_n) = (x, z)\}| + 1}$
该估计量使用了拉普拉斯平滑（加 1 平滑）以避免零分母问题。
关键引理 (Lemma 1)： 证明了对于任意 $y$ ， $\mathbb{E}[p_y / F_y] \le 1$ 。这意味着比率 $p_y / F_y$ 是一个 e-变量。

场景二：非稳定机制设定 (No stable stochastic mechanism for X)

假设： $Z_n$ 和 $Y_n$ 仍由稳定机制生成，但 $X_n$ 的生成策略可能依赖于历史数据（即 $X_n$ 可能依赖于 $(X_1, \dots, X_{n-1}, Z_1, \dots, Z_{n-1})$ ），甚至可能由对手选择。
Y-遗忘解释 (Y-oblivious interpretation)： 假设 $X_n$ 的选择仅依赖于过去的 $X$ 和 $Z$ ，而不依赖于过去的 $Y$ 。
结果： 在此设定下，Lemma 1 依然成立，即 $\mathbb{E}[p_y / F_y] \le 1$ 仍然有效。

2.3 预测区域构建

利用 Corollary 2，对于任意概率测度 $Q$ （如均匀分布或针对特定关注点的分布），定义随机变量：
$E := \frac{Q(\{Y_{N+1}\})}{F_{Y_{N+1}}}$
$E$ 是一个 e-变量。基于此，构建e-预测区域 $\Gamma_\alpha$ ：
$\Gamma_\alpha := \left\{ y \in Y : \frac{Q(\{y\})}{F_y} < \alpha \right\}$
其中 $\alpha$ 是显著性水平（通常取较大的数，如 10 或 100）。

3. 主要贡献 (Key Contributions)

扩展共形 e-预测至因果推断： 首次将共形 e-预测框架应用于存在观测混杂的因果推断问题，解决了从观测数据推断干预分布的预测问题。
有限样本有效性保证： 证明了即使在有限样本下，所构建的预测区域 $\Gamma_\alpha$ 也满足严格的误差控制性质：
$\int_0^\infty P(Y \notin \Gamma_\alpha) d\alpha \le 1$
这意味着在水平 $\alpha$ 下的错误概率不超过 $1/\alpha$（由马尔可夫不等式得出）。
处理策略性 $X$ 选择： 突破了传统共形预测对 $X$ 必须 IID 的限制，证明了在 $X$ 的选择依赖于历史 $X$ 和 $Z$ （但不依赖历史 $Y$ ）的情况下，有效性依然保持。
e-变量的组合性质： 指出该因果 e-预测器本质上是 $|Z|$ 个共形 e-预测器的组合（见结论部分），为理解其结构提供了新视角。

4. 主要结果 (Results)

引理 1 与推论 2： 建立了估计量 $F_y$ 与真实干预概率 $p_y$ 之间的 e-变量关系。这是整个方法的理论基石。
预测区域的有效性： 证明了预测区域 $\Gamma_\alpha$ 具有嵌套性（随 $\alpha$ 增大而扩大），且满足强有效性条件（积分形式）。
特定标签的排除： 当 $Q$ 集中在某个特定标签 $y^*$ （如“患者死亡”）时，如果观测到 $F_{y^*} \le 1/\alpha$ ，则可以以 $1/\alpha$ 的错误率上限自信地排除该标签。
渐近最优性： 当样本量 $N$ 很大且 $|Z|$ 较小时，基于估计量 $F_y$ 的预测区域接近基于真实 $p_y$ 的“神谕”（Oracle）预测区域。

5. 意义与未来方向 (Significance & Future Work)

理论意义： 该工作将因果推断与预测理论（特别是基于 e-变量的预测）紧密结合，提供了一种不依赖渐近假设、具有严格有限样本保证的因果预测工具。
实际应用： 适用于医疗（如评估药物疗效并排除死亡风险）、经济学等需要处理混杂因素且对预测可靠性要求极高的领域。
扩展性：
- 后门准则： 该方法可轻松扩展至满足后门准则（Back-door criterion）的更复杂因果图，其中 $Z$ 可以是调整集。
- 回归问题： 目前假设变量取值有限，未来可推广至 $Y$ 为连续值的回归问题（构建预测区间）。
- 优化常数： 论文指出当前的平滑常数（+1）可能不是最优的，未来研究可探索更小的常数 $c < 1$ 以缩小预测区域，同时保持有效性。
- 强依赖情形： 对于 $X$ 依赖过去所有变量（包括 $Y$ ）的强依赖情形，目前引理 3 的证明失效，未来可考虑使用共形测试鞅（Conformal test martingales）来解决。

总结

这篇论文通过引入 e-变量框架，成功解决了在存在观测混杂且数据可能非 IID 的复杂环境下，进行因果干预预测的难题。其核心优势在于提供了有限样本下的严格有效性保证，无需依赖大样本渐近理论，为因果推断中的不确定性量化提供了新的数学工具。