Better Measurement or Larger Samples? Data Collection for Policy Learning with Unobserved Heterogeneity

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**“如何花钱做实验，才能制定出最好的政策”**的学术论文。

想象一下，你是一位**“政策大厨”**，你的任务是为一群性格、能力各不相同的食客（比如贫困地区的创业者）分发“营养餐”（比如现金补助）。你的目标是让大家的健康状况（比如利润）都变好。

这篇论文主要解决了两个核心问题：

要不要用“秘密配方”？ 有些食客虽然看起来一样（都有年龄、学历等公开信息），但他们的“内在天赋”（比如商业头脑、动力）是看不见的。我们能不能通过某种“测谎仪”或“评分表”（论文里叫代理变量）来猜出他们的天赋？
钱该怎么花？ 如果我们要用这个“测谎仪”，是应该花大价钱把它做得更精准（比如多问几个人打分），还是应该省点钱，多找更多的人来参与实验？

1. 核心冲突：是“测得准”重要，还是“样本多”重要？

这就好比你在招聘员工：

方案 A（只凭简历）： 你只看学历和年龄（公开数据）。这很便宜，你可以面试很多人。但你可能错过那些学历不高但天赋异禀的“扫地僧”。
方案 B（加个面试）： 你加了一个“商业技能测试”（看不见的天赋）。这能帮你找到真正的人才，但测试本身有误差（比如考官心情不好打错分），而且设计这个测试很贵。如果你把预算都花在测试上，能面试的人就变少了。

论文的核心发现是：

如果“商业技能”对成功的影响非常大，那么即使测试有点误差，你也必须用它。因为用错人的代价太大了。
如果“商业技能”影响不大，或者测试太贵、太不准，那你不如省点钱，多面试几个人，靠大数定律来弥补。

2. 论文里的“魔法公式”：后悔值（Regret）

作者发明了一个新的衡量标准，叫**“后悔值”**。

想象有一个“全知全能的上帝”，他一眼就能看出谁最有商业天赋。上帝制定的方案是完美的。
你的方案如果和上帝的方案比，少赚了多少钱，就是“后悔值”。
作者证明：如果你引入那个有误差的“测试”，虽然测试本身有噪音，但只要它能解释足够多的“天赋差异”，你的“后悔值”就会比只用简历（方案 A）更低。

关键结论： 只有当“天赋带来的差异” > “测试误差 + 方案变复杂带来的成本”时，引入测试才是划算的。

3. 最佳花钱策略：怎么分配预算？

作者建立了一个数学模型，告诉你钱该怎么分：

预算很少时： 不要追求完美的测试！哪怕只问2 个人打分（而不是 5 个），把省下的钱用来多找几个创业者参与实验，效果反而更好。因为样本量太小，再准的测试也救不回来。
预算充足时： 你可以同时追求“更准的测试”和“更多的人”。
临界点： 当预算达到一定程度，测试的精度就不再是瓶颈了，这时候应该把剩下的钱全部用来扩大样本。

4. 真实世界的验证：印度创业者的故事

作者用了一个真实的案例来验证理论：

背景： 在印度农村给小老板发钱。
方法： 让老板们互相给彼此的商业能力打分（这就是那个“社区排名”代理变量）。
发现：
1. 引入打分确实有效： 相比只看年龄和学历，加上“社区打分”能让整体利润提高 5%，并且把“发错钱导致亏损”的概率减半。
2. 精度与数量的权衡： 作者发现，如果预算有限，找 2 个人打分比找 5 个人打分（但样本量变小）效果更好。
3. 永远不要忽略天赋： 哪怕预算再紧，完全忽略“商业天赋”（只用公开数据）也是最糟糕的选择。

总结：给决策者的“大白话”建议

别只盯着表面数据： 人的内在特质（如能力、动机）很重要，忽略它们会浪费政策效果。
不要盲目追求完美数据： 如果你没钱，不要试图把“测谎仪”做得完美无缺。
聪明地“拆东墙补西墙”： 在预算有限时，牺牲一点测量的精度，换取更多的样本量，往往能带来更大的整体收益。
没有免费的午餐： 引入新数据会增加复杂性，只有当它带来的收益（解释的变异）大于它带来的麻烦（误差和复杂度）时，才值得做。

一句话总结：
做政策就像做菜，“选对食材”（识别天赋）很重要，但如果你没钱买顶级食材，不如多买些普通食材，多试几次，也比只盯着几样顶级食材却做不出大锅饭要强。 这篇论文就是教你怎么在有限的买菜钱里，算出最划算的“食材 + 试菜”比例。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：更好的测量还是更大的样本？

1. 研究背景与核心问题

背景：政府和国际机构越来越多地利用个性化治疗规则（Individualized Treatment Rules, ITRs）来分配干预措施（如现金转移、职业培训）。传统的政策学习（Policy Learning）主要基于可观测特征（如年龄、收入）来最大化社会福利。
核心问题：个体的治疗反应往往取决于未观测的潜在特征（如先天能力、动机、商业技能）。如果政策制定者希望利用这些潜在特征来优化政策，他们面临一个权衡：
1. 更好的测量：投入资源提高对潜在特征代理变量（Proxy）的测量精度（例如，通过重复测量、更复杂的调查或更高分辨率的数据）。
2. 更大的样本：将同样的预算用于增加样本量，以更准确地估计基于可观测特征的政策规则。
研究目标：
1. 在什么条件下，利用带有测量误差的潜在特征代理变量能改善政策表现？
2. 在预算约束下，政策制定者应如何在“提高代理变量精度”和“增加样本量”之间分配资源，以实现最小化最大遗憾（Minimax Regret）？

2. 方法论与理论框架

2.1 设定与定义

数据生成过程：假设存在可观测协变量 $X_i$ 、潜在特征 $A_i$ （不可直接观测）、二元处理 $D_i$ 和结果 $Y_i$ 。观测到的代理变量为 $\hat{A}_i = A_i + \epsilon_i$ ，其中 $\epsilon_i$ 为测量误差。
政策规则类别：
- 基于协变量的规则 (CB)：仅使用 $X_i$ 进行分配。
- $\hat{a}$ -增强规则 ( $\hat{a}$ -Augmented)：使用 $X_i$ 和估计的潜在特征 $\hat{A}_i$ 进行分配。
遗憾（Regret）的新定义：
- 传统遗憾通常定义为估计规则与“类内最优规则”的差距。
- 本文创新：定义遗憾为估计规则与**全知神谕（Oracle）**的差距。该神谕不仅能观测到 $X_i$ ，还能直接观测到真实的潜在特征 $A_i$ 。
- 这一定义使得不同复杂度的政策类别（CB 与 $\hat{a}$ -Augmented）可以在同一基准下进行比较。

2.2 理论推导：遗憾界限（Regret Bounds）
作者推导了速率锐利（Rate-sharp）的遗憾界限，比较了两种策略的极小极大（Minimax）表现：

忽略未观测异质性 (CB 规则)：
- 遗憾界限包含两部分：统计误差（随样本量 $n$ 减小）和近似误差。
- 近似误差源于忽略了 $A_i$ 导致的治疗效应变异（ $\bar{\sigma}_{\tau|x}$ ）。如果 $A_i$ 对结果影响很大，忽略它会导致巨大的福利损失。
包含噪声测量 ( $\hat{a}$ -Augmented 规则)：
- 遗憾界限包含：统计误差（随 $n$ 减小，但受策略空间复杂度 $v_{x,\hat{a}}$ 影响）、测量误差传播项（与 $\hat{A}_i$ 的均方根误差 $rMSE$ 成正比）。
- 即使样本量无限，如果 $rMSE > 0$，遗憾也不会消失（存在不可消除的福利损失）。

2.3 数据收集优化问题

问题设定：政策制定者在固定预算 $B_0$ 下，选择信息水平 $t$ （决定 $\hat{A}_i$ 的精度， $t$ 越高误差越小）和样本量 $n$ 。
权衡机制：
- 提高 $t$ （更精确的测量）会增加单位成本，从而减少可用于学习政策的样本量 $n$ 。
- 增加 $n$ 会降低统计误差，但可能因测量误差过大而无法充分利用潜在特征的信息。
最优解推导：
- 利用推导出的遗憾界限，作者构建了最小化最大遗憾的优化问题。
- 结论：最优设计呈现**角点解（Corner Solution）或内点解（Interior Solution）**结构。
  - 如果潜在异质性带来的收益不足以抵消测量误差和模型复杂度的成本，最优策略是 $t^*=0$ （忽略潜在特征，全预算用于扩大样本）。
  - 如果潜在异质性显著且测量成本合理，最优策略是分配预算同时提高精度和样本量。最优比例 $q = n/t$ 取决于策略空间复杂度、测量误差的规模以及相对成本。

3. 实证应用：印度微型企业现金转移实验

3.1 数据来源

基于 Hussam et al. (2022) 在印度农村进行的随机对照试验（RCT）。
干预：向微型企业家提供 6000 卢比（约 100 美元）的无条件现金赠款。
潜在特征：企业家的“商业技能”（未观测）。
代理变量：社区排名（Community Rankings）。由 5 名同行对每位企业家进行排名，取平均值作为商业技能的代理。

3.2 实证结果

政策规则排序：
- 包含社区排名的 $\hat{a}$ -Augmented 规则比仅基于协变量（年龄、教育）的 CB 规则显著更优。
- 福利提升：引入社区排名使平均福利提高了 5%（相对于随机分配）或 4%（相对于 CB 规则）。
- 降低风险：引入社区排名将产生福利损失（Harm Rate）的概率减半（相对于随机分配）或减少三分之一（相对于 CB 规则）。
测量精度与绩效衰减：
- 利用实验设计中“5 名排名者”的特性，作者模拟了使用不同数量排名者（ $t=1$ 到 $5$）构建代理变量的情况。
- 发现：随着排名者数量（测量精度）增加，福利增益单调上升，验证了理论预测：测量误差越小，政策表现越好。
最优数据收集计划（预算约束下）：
- 作者模拟了在不同预算水平下，如何分配资金给“增加排名者数量”（提高精度）和“增加样本量”。
- 关键发现：
  - 永远不要忽略异质性：即使在预算非常紧张的情况下（如 $600），最优策略也是收集至少 2 个排名（$ t^* \ge 2$），而不是将所有资金用于扩大样本。忽略潜在特征总是次优的。
  - 预算与精度的权衡：在低预算下，最优策略是减少测量次数，扩大样本量（例如选 2 个排名者而非 5 个，以换取更多样本）。随着预算增加，最优排名者数量逐渐增加（ $t^*$ 从 2 增至 4）。
  - 饱和点：当预算足够大时，样本量达到上限，进一步增加预算主要用于提高测量精度。

4. 主要贡献

理论创新：
- 提出了新的遗憾定义（相对于观测到真实潜在特征的神谕），使得包含未观测特征的政策规则与不包含的规则具有可比性。
- 推导了包含测量误差的政策学习的速率锐利遗憾界限，量化了测量误差传播对政策性能的具体影响。
数据收集设计：
- 首次将政策学习与实验设计/数据收集问题正式结合。
- 解决了在有限预算下，如何权衡“测量精度”与“样本量”的优化问题，并给出了最小极大最优的资源分配方案。
实证指导：
- 开发了一套基于样本分割（Sample-splitting）的实用程序，帮助应用研究者评估是否应引入未观测特征的代理变量，以及在预算约束下如何最优地设计数据收集方案。
- 通过印度现金转移实验证实，即使测量成本高昂，利用社区排名等代理变量来捕捉商业技能，仍能显著提升社会福利并降低政策失败风险。

5. 意义与启示

对政策制定者的启示：在资源有限时，不应盲目追求大样本而忽视关键但未观测的异质性特征。相反，应通过理论模型计算“精度 - 样本量”的临界点，进行针对性的数据收集（如增加重复测量或改进代理变量）。
对实证研究的启示：在评估政策效果时，必须考虑代理变量的测量误差。如果测量误差过大，引入该变量可能反而降低政策表现（由于模型复杂度增加和噪声传播）。
方法论贡献：为处理“未观测混淆”和“测量误差”共存的政策学习问题提供了严谨的统计框架，填补了文献中关于数据收集策略设计的空白。

总结：该论文通过严谨的理论推导和详实的实证分析，证明了在存在未观测异质性的情况下，“更好的测量”并不总是优于“更大的样本”，反之亦然。最优策略取决于潜在特征的解释力度、测量误差的大小以及两者的相对成本。在大多数现实场景中（如本文的印度案例），适度牺牲样本量以换取关键潜在特征的更精确测量，是最大化社会福利的最优路径。

Better Measurement or Larger Samples? Data Collection for Policy Learning with Unobserved Heterogeneity

1. 核心冲突：是“测得准”重要，还是“样本多”重要？

2. 论文里的“魔法公式”：后悔值（Regret）

3. 最佳花钱策略：怎么分配预算？

4. 真实世界的验证：印度创业者的故事

总结：给决策者的“大白话”建议

论文技术总结：更好的测量还是更大的样本？

1. 研究背景与核心问题

2. 方法论与理论框架

3. 实证应用：印度微型企业现金转移实验

4. 主要贡献

5. 意义与启示

类似论文

Justifiable Priority Violations

The Screening Cost of Liquidity

Testing for Monotone Equilibrium Strategies in Games of Incomplete Information

Seasonality in Mixed Causal-Noncausal Processes

Representativeness and Efficiency in Overidentified IV