Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种让A/B 测试（也就是我们常说的“实验”）变得更聪明、更灵敏的新方法。

想象一下，你是一家大公司的产品经理，你想测试两个不同的按钮颜色（红色 vs 蓝色），看哪个能让用户更想买东西。这就是 A/B 测试。

1. 核心问题：如何更精准地“听”到信号？

做实验就像在嘈杂的房间里听人说话。

信号：按钮颜色改变带来的真实效果。
噪音：用户本身的心情、当天的天气、网络好坏等随机因素。

如果“噪音”太大，你就很难听清“信号”，导致实验需要很长时间（或者很多用户）才能得出结论。为了省钱省时间，我们需要减少噪音（降低方差）。

2. 旧方法：只看“过去”的线索

以前，大家主要靠CUPED或CUPAC这些老方法。

比喻：这就像你想预测一个人今天会不会迟到，你只参考他昨天的起床时间、昨晚的睡眠情况（实验前数据）。
局限：虽然昨天的数据有帮助，但它和“今天是否迟到”的相关性可能不够强。比如，昨天睡得好，但今天出门路上堵车了，这预测就不准了。

3. 新方法：大胆使用“当下”的线索

这篇文章的作者（来自伯克利和 Etsy）提出：为什么不看看实验进行中发生的事呢？（实验内数据）

比喻：还是预测迟到。除了看昨晚睡得好不好，我们还看今天早上出门时的交通状况、走到地铁站的速度。这些是“实验进行中”发生的数据，它们和“是否迟到”的关系通常比“昨晚睡得好不好”更紧密、更直接。

但是，这里有个巨大的陷阱！

陷阱（中介变量）：如果“交通状况”是因为你换了新路线（也就是你的实验干预）才变堵的，那你把它算进去，就会把“换路线”的效果给抵消掉，导致你算不出真实效果。这就像你为了证明“吃药有效”，却把“吃药后产生的副作用”也当作噪音去消除，结果药看起来没用了。

4. 作者的绝招：两阶段“排雷”法

作者设计了一个聪明的两步走策略，既能利用“当下”的强线索，又不会掉进陷阱：

第一步：老套路（CUPAC）

先用实验前的数据（比如用户的历史习惯）建立一个预测模型。这就像先根据“昨晚睡得好不好”预测一下今天的状态。

第二步：小心地加入“当下”数据

现在，我们要加入“今天早上交通状况”这样的实验内数据。

关键筛选：作者说，我们不能乱加。必须加那些虽然发生在实验后，但实际上不受实验影响的数据。
- 例子：在电商里，用户“浏览商品详情页的次数”通常和“是否购买”强相关。但如果你只是改了按钮颜色，通常不会改变用户浏览商品的习惯（除非按钮颜色极其离谱）。这种数据就是安全的。
如何筛选？：作者用了一个简单的统计测试。如果在红色组和蓝色组里，这个“浏览次数”的平均值差不多（平衡的），那它就是安全的，可以加进来；如果平均值差别很大，说明它被实验影响了，那就把它扔掉。

最终效果

通过这种"先预测，再微调"的两步走，我们既利用了旧数据的稳定性，又利用了新数据的强相关性，把“噪音”压得更低，让实验结果更清晰。

5. 为什么这很重要？（现实世界的意义）

更省钱：以前为了看清效果，可能需要 10 万用户。现在用了这个方法，可能 5 万用户就能看清了。
更公平：对于新用户，他们没有任何“实验前数据”（没有历史记录），旧方法对他们束手无策。但新方法用的是“实验内数据”（他们刚进网站时的行为），所以对新用户也超级有效。
更简单：不需要复杂的数学模型，就像给现有的系统加了一个“智能过滤器”，计算起来很快，适合大公司每天跑成千上万个实验。

总结

这就好比你在射击靶子：

旧方法：只靠回忆昨天的风向（实验前数据）来调整瞄准。
旧陷阱：如果你把子弹飞行时的风（实验后数据）也拿来调整，可能会误把子弹本身造成的气流也算进去，导致打偏。
新方法：先按昨天的风向调整，然后只挑选那些确实没被你的射击动作影响的风向数据（比如远处的背景风），加进来微调。

结果就是：你的子弹打得更准，实验做得更快，决策更果断！

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Variance reduction combining pre-experiment and in-experiment data》（结合实验前与实验内数据的方差缩减）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
在线受控实验（A/B 测试）是数据驱动决策的核心。在样本量固定的情况下，提高实验的灵敏度（Sensitivity）至关重要，这通常通过降低平均处理效应（ATE）估计量的方差来实现。

现有方法的局限性：

CUPED 和 CUPAC： 现有的方差缩减技术（如 CUPED 和 CUPAC）主要利用实验前数据（Pre-experiment data）进行回归调整。
- CUPED 使用线性回归调整。
- CUPAC 引入机器学习模型进行非线性调整。
核心痛点： 这些方法的效果受限于实验前数据对实验期间结果的预测能力。由于实验前数据是在处理分配之前收集的，它们与实验期间的结果（Outcome）相关性可能有限。
被忽视的潜力： 实验内数据（In-experiment data，即处理后的协变量）通常与结果具有更强的相关性，能提供更强的信号。
主要障碍： 直接调整处理后的变量（Post-treatment variables）通常会导致偏差（Bias），因为它们可能是处理到结果的中介变量（Mediators），调整它们会“阻断”部分处理效应。

研究问题：
如何安全地利用实验内数据（处理后的协变量）来进一步降低 ATE 估计量的方差，同时避免引入偏差？即，如何识别那些虽然是在处理后观测到，但实际上不受处理影响（或影响可忽略）的协变量？

2. 方法论 (Methodology)

作者提出了一种通用、稳健且可扩展的两阶段框架，结合了实验前数据和实验内数据。

2.1 核心思想

该方法不改变现有的 CUPAC 第一阶段模型，而是增加一个第二阶段线性调整，利用筛选出的“处理不敏感”的实验内协变量。

第一阶段（CUPAC）： 使用实验前协变量 $X$ 训练一个预测模型 $\hat{f}(X)$ 来预测结果 $Y$ 。计算残差 $\hat{R}_i = Y_i - \hat{f}(X_i)$ 。
第二阶段（线性调整）： 将残差 $\hat{R}_i$ 对筛选出的实验内协变量 $Z$ 进行线性回归，得到系数 $\hat{\gamma}$ 。
最终估计量：
$\hat{\tau} = \frac{1}{n_1}\sum_{W_i=1}(Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i) - \frac{1}{n_0}\sum_{W_i=0}(Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i)$

2.2 关键假设与协变量选择

为了避免偏差，必须确保所选的实验内协变量 $Z$ 满足**均值等价性（Mean Equivalence）**条件：
$E[Z | W=1] = E[Z | W=0]$
这意味着处理分配 $W$ 不会改变协变量 $Z$ 的均值（即 $Z$ 不是处理效应的中介变量，或者其受处理影响的部分在均值上相互抵消）。

筛选流程 (Covariate Selection)：

候选集： 收集所有可能的实验内协变量（如页面浏览量、会话时长等）。
统计检验： 对每个候选协变量 $Z^{(j)}$ ，在实验组和对照组之间进行双样本检验（如 Mann-Whitney U 检验），检验零假设 $H_0: E[Z^{(j)}|W=1] = E[Z^{(j)}|W=0]$ 。
选择标准： 保留那些无法拒绝零假设的协变量（ $p\text{-value} > \alpha$ $p -value > α$ ）。
- 作者指出，虽然大样本下微小的差异也会显著，但在实际工业场景中，结合领域知识（Domain Knowledge）排除明显的中介变量，并利用元分析（Meta-analysis）跨多个实验合并 p 值，可以筛选出一组稳健的、处理不敏感的协变量集合。
理论保证： 证明了在渐近意义下，该筛选过程能确保选入的协变量满足均值等价性，从而保证估计量的无偏性。

2.3 理论性质

一致性 (Consistency)： 估计量 $\hat{\tau}$ 是 ATE 的一致估计量。
渐近正态性： $\sqrt{n}(\hat{\tau} - \tau) \xrightarrow{d} N(0, \sigma^2)$ 。
方差缩减： 新的渐近方差 $\sigma^2$ 小于或等于仅使用 CUPAC 的方差。额外的方差缩减量取决于实验内协变量 $Z$ 对残差 $Y - f(X)$ 的解释能力。
无需样本分割 (No Sample Splitting)： 由于第一阶段模型通常是在历史数据上离线训练并固定的（在工业流水线中），或者满足特定的 Donsker 条件，该方法不需要像某些双重机器学习方法那样进行样本分割。

3. 主要贡献 (Key Contributions)

新框架： 提出了首个结合实验前和实验内数据进行方差缩减的通用框架，突破了传统方法仅依赖实验前数据的限制。
理论突破：
- 证明了在均值等价性（而非更强的独立性或主 ignorability 假设）下，调整特定的实验内协变量是无偏的。
- 推导了估计量的渐近分布和一致的方差估计量。
- 证明了协变量筛选过程的渐近一致性。
实用性与可扩展性：
- 方法简单、可解释且计算高效（第二阶段仅为线性回归）。
- 兼容现有的工业级实验流水线（如 CUPAC 流程），只需增加一个轻量级的筛选和线性调整步骤。
- 解决了新用户缺乏实验前数据的问题（实验内数据对所有用户可用）。
实证验证： 在 Etsy 的多个真实在线实验中进行了验证，展示了显著的性能提升。

4. 实验结果 (Results)

作者在 Etsy 进行了 29 个在线实验的实证研究，主要指标为用户转化率（Conversion Rate）。

设置：
- 基线： CUPAC（使用 117 个实验前协变量，LightGBM 模型）。
- 新方法： CUPAC + 第二阶段调整（使用 23 个经过筛选的实验内协变量）。
发现：
1. 预测精度提升： 结合实验内数据后，模型的 $R^2$ 显著提升（ $\sqrt{R^2}$ 的改进量在 0.02 到 0.14 之间）。
2. 方差缩减：
  - CUPAC 相比均值差估计量（Difference-in-Means）已经实现了方差缩减。
  - 新方法在 CUPAC 的基础上实现了额外的方差缩减。
  - 尽管新方法仅使用了 23 个实验内协变量（远少于 CUPAC 的 117 个实验前协变量），其带来的额外方差缩减幅度往往与 CUPAC 带来的缩减幅度相当，甚至在某些实验中更大。
3. 稳定性： 通过跨实验的元分析筛选协变量，确保了所选变量在不同实验中的稳健性。

5. 意义与结论 (Significance)

打破行业惯例： 长期以来，工业界为了避免偏差，倾向于完全排除实验内数据。本文证明了这种排除是过度保守的。只要通过严谨的筛选机制（结合统计检验和领域知识）识别出“处理不敏感”的协变量，就可以安全地利用它们。
提升决策效率： 通过进一步降低方差，企业可以在相同的样本量下检测到更小的效应，或者在更短的时间内得出结论，从而加速产品迭代和创新周期。
解决数据缺失问题： 对于新用户（无历史行为数据），实验内数据是唯一可用的协变量来源，该方法填补了这一空白。
理论指导实践： 文章不仅提供了理论证明，还给出了具体的工程落地方案（如筛选流程、p 值合并策略），使得该方法易于在大规模 A/B 测试平台中部署。

总结： 该论文提出了一种巧妙且实用的方法，通过“两阶段”策略（先利用实验前数据做非线性调整，再利用筛选后的实验内数据做线性调整），在保持无偏性的前提下，显著提升了 A/B 测试的统计灵敏度，为数据驱动决策提供了强有力的工具。