Each language version is independently generated for its own context, not a direct translation.

🧪 物語：「料理の味見」をより正確にする方法

想像してください。あなたがレストランのシェフで、新しいスパイス（「治療」）を入れたスープの味を試しています。
「このスパイス、美味しいかな？それともまずいかな？」
これを判断するために、2 つのグループに分けて味見をさせます。

グループ A（実験群）： 新しいスパイスを入れたスープ
グループ B（対照群）： 普通のスパイスのみのスープ

ここで重要なのは、**「スパイスのせいで味がどう変わったか（平均治療効果）」**を正確に測ることです。

❌ 従来の方法の悩み

でも、味見をする人（ユーザー）によって、元々の舌の感じ方や、その日の空腹具合（「事前のデータ」）が違います。

空腹な人はどんなスープでも「美味しい」と言うかもしれません。
満腹な人は「まずい」と言うかもしれません。

この「空腹具合」を事前に測っておいて調整すれば、スパイスの本当の効果をより正確に測れます。これが、これまでの主流な方法（CUPED や CUPAC）です。
**「実験を始める前に、客の空腹具合を聞いておいて、結果を補正する」**というわけです。

⚠️ でも、それだけじゃ足りない！

問題は、**「実験中に起きたこと（実験中のデータ）」を無視していたことです。
例えば、スパイスを入れた後、客が「スープを一口飲んで、すぐにスプーンを置いたか（離脱）」や「もう一杯注文したか（追加購入）」**といった行動は、スパイスの効果を最もよく表しています。

しかし、これまでのルールでは**「実験中に起きたこと」を調整に使ってはいけないとされていました。
なぜなら、「スパイスがまずかったから、客がスプーンを置いた」という「結果（スパイスのせいで起きたこと）」**を調整してしまうと、スパイスの本当の効果を消し去ってしまい、間違った結論になってしまうからです（これを「事後バイアス」と呼びます）。

✨ この論文の新しいアイデア：「賢いフィルター」を使う

この論文の著者たちは、**「実験中のデータも使いたいけど、間違ったデータは使いたくない」というジレンマを解決する、新しい「賢いフィルター」**を開発しました。

1. 「スパイスのせいで変わらないもの」だけを使う

著者たちは言います。
「実験中のデータのうち、**『スパイスが入ったからといって、客の行動が変わらないもの』**だけを使えばいいんだよ！」

例えば：

❌ 使ってはいけないもの： 「スープを飲み終わった時間」。これはスパイスがまずければ短くなるし、美味しければ長くなるので、スパイスの影響を直接受けています。
✅ 使っていいもの： 「客が持ってきたお皿の重さ」や「客が着ている服の色」。これらはスパイスが入っても変わらないはずです。でも、これらは「その客がどんな人か（味覚の鋭さなど）」を反映しているかもしれません。

2. 2 段階の魔法

新しい方法は、2 つのステップで味見の精度を上げます。

ステップ 1（事前データ）： 実験前の「空腹具合」で味見の誤差を少し減らす（これまでの方法と同じ）。
ステップ 2（実験中のデータ）： ここが新しさです。
1. まず、実験中のデータをチェックします。「スパイスを入れたグループと、入れなかったグループで、このデータ（お皿の重さなど）に差があるか？」を統計的にテストします。
2. もし**「差がない（スパイスの影響を受けていない）」**ことが確認できたら、そのデータを「味見の精度を上げるための補正値」として使います。
3. もし**「差がある（スパイスの影響を受けている）」**なら、それは「スパイスのせいで起きたこと」なので、使わずに捨てます。

🎯 結果：何が良くなったの？

この方法を使うと、「実験中のデータ」が持つ強力な予測力を、「バイアス（誤り）」を起こさずに取り込むことができます。

従来の方法： 事前のデータだけで調整。精度はそこそこ。
新しい方法： 事前データ＋「実験中でもスパイスの影響を受けていない賢いデータ」で調整。
- 結果： 実験の「ノイズ（誤差）」が劇的に減り、「スパイスが本当に美味しいかどうか」を、より少ない人数で、より早く、確信を持って判断できるようになりました。

📊 実際の効果（エツィ社の実験）

この論文では、オンラインショッピングサイト「Etsy」で 29 回の実験を行いました。

従来の方法（事前データのみ）に比べ、新しい方法を使えば、実験の感度が大幅に向上しました。
少ないデータ（実験中の数種類の行動データ）を追加するだけで、大きな効果が出たのです。

💡 まとめ：何がすごいのか？

この論文が伝えているメッセージはシンプルです。

「実験中に起きたこと」を全部無視するのはもったいない！

ただし、「実験の結果（スパイスの影響）」を消さないように注意しながら、「実験の影響を受けていない賢いデータ」だけを選りすぐって使えば、実験はもっと正確で速くなるよ！

これは、データサイエンティストやビジネスパーソンにとって、**「より少ないコストで、より良い意思決定ができる」ようになる画期的な方法です。まるで、味見をする前に「客の空腹具合」だけでなく、「その客が普段どんな料理が好きか」という「実験中でも変わらない客の性質」**まで賢く読み取れるようになったようなものです。

Each language version is independently generated for its own context, not a direct translation.

論文要約：事前実験データと実験中データの組み合わせによる分散低減

タイトル: Variance reduction combining pre-experiment and in-experiment data
著者: Zhexiao Lin (UC Berkeley), Pablo Crespo (Etsy)
掲載誌: Proceedings of Machine Learning Research (PMLR), 2026

1. 背景と問題設定

オンライン制御実験（A/B テスト）は、データ駆動型の意思決定において不可欠ですが、固定されたサンプルサイズ制約下で実験の感度を高めるためには、平均処置効果（ATE）推定量の分散を低減する必要があります。

既存の分散低減手法（CUPED や CUPAC）は、事前実験データ（処置割り当て前のデータ）を用いて回帰調整を行うことで分散を削減します。しかし、これらの手法には以下の限界があります。

予測力の限界: 事前データは処置割り当て前に収集されるため、実験中のアウトカムと直接的な相関が低い場合があり、分散低減の効果が限定的です。
実験中データの未活用: 実験中に収集される実験中データ（in-experiment data）は、アウトカムと強く相関していることが多いですが、処置後の変数（post-treatment variables）を無闇に調整すると、処置効果の一部を除去してしまい、推定量にバイアスが生じる（ポスト処置バイアス）という因果推論上の課題があります。

本研究は、このジレンマを解決し、事前実験データと実験中データの両方を組み合わせて、バイアスなしで分散を大幅に低減する汎用的なフレームワークを提案するものです。

2. 提案手法の概要

提案手法は、既存の CUPAC（事前データを用いた非線形予測モデル）の構造を維持しつつ、第 2 段階で選択された実験中データを用いた線形調整を追加する2 段階アプローチです。

2.1 核心的なアイデア

第 1 段階: 事前実験データ $X$ を用いて、CUPAC と同様にアウトカム $Y$ を予測するモデル $\hat{f}(X)$ を構築し、残差 $\hat{R} = Y - \hat{f}(X)$ を算出します。
第 2 段階: 実験中データ $Z$ $Z$ のうち、処置に対して「影響を受けない（treatment-insensitive）」と判断できる変数を選択し、これらを用いて残差 $\hat{R}$ $\hat{R}$ を線形回帰で調整します。
- 調整式: $\hat{\tau} = \text{DiffMeans}(Y - \hat{f}(X) - \hat{\gamma}^\top Z)$

2.2 実験中変数の選択基準（バイアス回避）

実験中データ $Z$ を調整する際の重要な仮定は、**「平均同等性（Mean Equivalence）」**です。

条件: $E[Z | W=1] = E[Z | W=0]$ （処置群と対照群で $Z$ の期待値が等しい）。
解釈: 変数 $Z$ が処置によって完全に不変である必要はありません（ $Z(1)=Z(0)$ である必要はない）。重要なのは、処置による $Z$ の分布の変化が平均値に現れていないことです。
選定プロセス: 候補となる実験中変数に対して、両群間の平均値の差を検定（2 標本検定）し、有意差がない変数（ $p > \alpha$ $p > α$ ）を「安全に調整可能」と判断して選定します。
- 大規模実験では、統計的検定力が高いため、実質的に無視できる差でも有意になる可能性があります。そのため、ドメイン知識によるフィルタリングや、実質的な効果量（effect size）の考慮、あるいは等価性検定（equivalence testing）の併用が推奨されます。

2.3 理論的性質

一致性: 平均同等性が満たされれば、推定量 $\hat{\tau}$ は ATE に対して一致（consistent）します。
漸近正規性: 推定量は漸近的に正規分布に従います。
分散推定: 一貫した分散推定量を構築可能です。
仮定の弱さ: 従来の代替法（代理変数法や主層別化）が要求する強い仮定（surrogacy や principal ignorability）を必要としません。

3. 主要な貢献

新しい分散低減フレームワークの提案: 事前データと実験中データを統合し、CUPAC の精度をさらに向上させる実用的な手法を提案しました。
理論的保証: 線形調整を用いることで、非線形調整よりも弱い仮定（平均同等性）でバイアスなしの分散低減が可能であることを理論的に証明しました。
実装の容易性とスケーラビリティ: 複雑なモデルを各実験ごとに再学習する必要がなく、既存の CUPAC パイプラインに第 2 段階の線形調整を追加するだけで実装可能です。
実証的検証: Etsy における大規模なオンライン実験（29 件）での適用結果を示し、既存手法よりも大幅な分散低減が達成できることを実証しました。

4. 実証結果（Etsy での実験）

データ: Etsy での 1 ヶ月間に実施された 29 の A/B テスト（主要アウトカム：顧客転換率）。
設定:
- ベースライン：117 個の事前変数を用いた CUPAC（LightGBM モデル）。
- 提案手法：CUPAC に加え、23 個の実験中変数（カウントデータなど）を第 2 段階で追加。
結果:
- 予測精度の向上: 提案手法は CUPAC 単体と比較して、決定係数（ $R^2$ ）の平方根で 0.02〜0.14 程度の改善を示しました。
- 分散低減: 多くの実験において、CUPAC が達成した分散低減量に匹敵、あるいはそれ以上の追加的な分散低減を実現しました。
- 変数の効率性: 事前変数（117 個）よりもはるかに少ない実験中変数（23 個）のみで、大きな効果を得ている点が注目されます。これは実験中データがアウトカムとより強く相関していることを示唆しています。

5. 意義と結論

本研究は、オンライン実験における「ポスト処置変数はバイアスの原因となるため使用すべきではない」という従来の業界慣行を見直し、**「適切に選定された実験中変数は、バイアスなしで分散を大幅に低減できる強力なリソースである」**ことを示しました。

実務的意義: 新規ユーザーのデータが存在しない場合でも、実験中データは全ユーザーに存在するため、分散低減の機会を失うことがありません。
理論的意義: 因果推論の文脈で、ポスト処置変数の使用に関する厳格な仮定（完全な不変性など）を緩和し、実用的な「平均同等性」の条件に基づいた手法を提供しました。
今後の展望: 機械学習を用いた変数選定や、より広範な変数ライブラリからの選定など、さらなる精度向上の余地があります。

結論として、このフレームワークは、既存の実験パイプラインに容易に統合でき、データ駆動型意思決定の速度と精度を向上させるための実用的かつ理論的に裏付けられた解決策です。

Variance reduction combining pre-experiment and in-experiment data