Causal Inference with Generative Artificial Intelligence: Application to… — 通俗解释

想象一下你是一名正在试图弄清楚故事中的某个特定细节是否会改变人们对一个角色的看法的小侦探。假设你想知道：拥有军事背景是否会让选民更喜欢一位政治家？

问题在于，现实生活中的故事是混乱的。一个拥有军事背景的政治家可能同时也比较年长、受教育程度不同，或者其传记的写作基调更加感性。如果你只是简单地对比两份随机的传记，你无法判断选民喜欢这位候选人是因为“军事”部分，还是因为“教育”部分。在科学中，我们把这些混乱的额外细节称为“混杂因素”（confounders）。

传统上，研究人员尝试通过让计算机“阅读”文本并猜测混杂因素是什么来解决这个问题。但这就像是通过猜测污垢的位置来试图擦干净一扇脏窗户；这既困难、缓慢，而且往往不准确。

这篇论文介绍了一个名为 GPI（生成式人工智能驱动的推断） 的新工具。它是这样工作的，这里用一个简单的类比来说明：

魔法复印机（生成式人工智能）

研究人员不仅仅是阅读现有的故事，而是使用一台“魔法复印机”（大语言模型，或简称 LLM）为他们编写故事。

提示词（Prompt）： 研究人员告诉机器：“写一份关于一位有军事背景的政治家的传记。”然后，他们告诉它：“写一份关于一位没有军事背景的政治家的传记。”
秘密蓝图： 这是它的超能力。当 AI 编写故事时，它不仅仅是吐出文字；它还创建了一个隐藏的、内部的“蓝图”（数学表示），精确地描述了它所写的内容。
诀窍： 因为故事是 AI 写的，研究人员可以获得这个完美的、隐藏的蓝图。他们确切地知道 AI 在文本中加入了哪些内容来体现“军事”特征，也知道它在其他方面（如教育或基调）加入了什么。

“去混杂器”（过滤器）

研究人员利用这个完美的蓝图构建了一个特殊的过滤器，称为去混杂器（Deconfounder）。

旧方法： 想象一下试图分离红蓝两种颜色但又粘在一起的弹珠。你必须靠猜来把它们拉开。
GPI 方法： 因为故事是 AI 写的，研究人员拥有“说明书”。他们可以通过查看蓝图并说：“好吧，这个部分的蓝图是‘军事’成分，而这其他部分的蓝图是‘教育’成分。”他们可以从数学上隔离出军事部分，而不干扰教育部分。

这让他们能够追问：“如果我们保持教育和基调完全相同，但只改变军事部分，选民的分数会如何变化？”

为什么这种方法更好

该论文声称，这种方法就像是从手摇计算器升级到了超级计算机，主要基于两个原因：

准确性： 因为他们使用的是 AI 真实的 内部蓝图，而不是去猜测文本的含义，所以他们能得到更清晰的答案。在测试中，他们的方法产生的“噪声”（误差）更少，且给出的结果比现有最好的方法更可靠。
速度： 旧方法就像是通过观察每一个碎片来试图解开一个巨大的拼图。而新方法就像是手里拿着盒子上印着的成品图；它解决问题的速度快了大约 100 倍。

“文本重用”的转折

研究人员还发现了一个很酷的捷径。如果你拿一份现有的传记，并要求 AI “重写这段完全相同的故事”，AI 会为那段旧文本创建一个新的、完美的蓝图。这意味着你甚至不需要从头开始生成新的故事；你可以使用旧数据，将其喂给 AI，并获得同样高质量的结果。

核心结论

该论文认为，通过使用生成式人工智能不仅是为了“生成”文本，更是为了“理解”文本隐藏的结构，我们终于可以理清社会科学中错综复杂的因果关系。

目标： 衡量一个特定事物（如服役经历）对一个结果（如选民的好感度）的真实影响。
问题： 其他因素（混杂因素）交织其中。
解决方案： 使用 AI 生成或重写文本，获取其“秘密蓝图”，并利用它将原因与噪声完美分离。

作者在真实的选民调查中测试了这一点，并发现，是的，军事背景确实会让选民对候选人产生更温暖的感觉，并且他们能以比以往更高且更快速的方式证明这一点。他们还指出，只要 AI 能以类似的精度生成图像和视频，同样的逻辑未来也可以应用于这些领域。

技术摘要：生成式人工智能在因果推断中的应用：将文本作为处理变量

问题陈述
本文探讨了当处理变量（treatments）是无结构、高维对象（如文本）时，估计因果效应所面临的挑战。在传统的文本因果推断中，研究人员必须从数据中学习低维的混杂特征表示（例如语气、长度、特定主题）以进行调整。现有的方法（例如使用 BERT 嵌入或主题模型的方法）试图直接从处理文本中学习这些表示。然而，这一过程往往难以将特定的感兴趣的处理特征（例如军事背景）与相关的其他混杂特征区分开来，从而导致估计偏差并违反重叠假设（overlap assumption）。此外，从数据中学习这些表示在计算上非常密集，并且在混杂程度较高时可能无法产生准确的因果估计。

方法论：生成式人工智能驱动的推断 (GenAI-Powered Inference, GPI)
作者提出了 GenAI-Powered Inference (GPI) 方法，该方法利用深度生成模型（特别是大语言模型，LLMs）来增强因果推断。其核心创新在于直接利用来自 LLM 的生成文本的“真实内部表示”（true internal representation），而不是从数据中学习表示。

实验设计：
- 研究人员使用 LLM 根据特定的提示词（prompts）生成处理对象（文本）。或者，可以通过指示 LLM 精确重现现有文本来“复用”现有文本。
- 要求 LLM 在确定性解码（deterministic decoding）模式下运行（例如，设置温度为零的贪婪搜索），以确保输出是内部表示的确定性函数。
- 直接从 LLM 的隐藏层中提取生成文本的内部表示 ( $R_i$ )。
关键假设：
- 可分离性（假设 5）： 处理特征 ( $T$ ) 和混杂特征 ( $U$ ) 必须是可分离的。具体而言， $T$ 不能是 $U$ 的确定性函数，且 $U$ 不能是 $T$ 的确定性函数。这意味着可以通过干预处理特征而不改变混杂特征。
- 确定性解码（假设 6）： 生成模型的输出是其内部表示的确定性函数，确保处理对象仅通过该表示取决于提示词。
识别与估计：
- 非参数识别： 在可分离性和确定性解码假设下，作者证明了存在一个去混杂因子（deconfounder）函数 $f(R_i)$ ，用于总结混杂特征。该去混杂因子是内部状态 $R_i$ 的低维表示，满足条件独立性： $Y_i \perp R_i \mid T_i, f(R_i)$ 。
- 估计策略： 作者采用了基于 TarNet 的神经网络架构，同时估计去混杂因子和条件结果函数。
- 双重机器学习 (DML)： 为了获得渐近有效的置信区间，该方法应用了 DML。至关重要的是，倾向得分（propensity score）被建模为估计的去混杂因子的函数，而非原始的内部表示。这避免了如果直接在高度维的内部表示上建模倾向得分时可能导致的重叠假设违背问题（因为在那种情况下，处理特征是内部表示的确定性函数）。
- 感知处理（Perceived Treatments）： 该方法论还扩展到了受访者对处理特征感知不同的场景，其中实际的处理特征作为感知特征的工具变量。

核心贡献

利用真实的内部表示： 不同于以往通过数据学习表示的工作（例如通过 BERT 嵌入），GPI 直接从开源 LLM 中提取真实的向量化表示。这消除了从数据中学习因果表示的需求，提高了准确性和计算效率。
形式化可分离性： 本文正式确立了“可分离性”假设是此类场景下非参数识别的必要条件，并将其与解耦（disentanglement）和重叠假设联系起来。
诊断工具： 作者提出了诊断工具，包括倾向得分分布分析和独立支持得分（IOSS），用于检测潜在的可分离性假设违背情况。
高效估计： 通过使用内部表示和特定的神经网络架构，该方法避免了现有因果表示学习方法中常见的“维度诅咒”和重叠违背问题。

结果
作者通过基于候选人档案实验（Fong and Grimmer, 2016）的模拟研究以及使用相同数据集的实证应用来评估 GPI。

模拟研究：
- 在满足可分离性假设的情况下，GPI（使用新生成的文本和文本复用两种方式）在偏差和均方根误差（RMSE）方面均显著低于最先进的方法（基于 BERT 的结果模型和基于 BERT 的 DML）。
- 在弱、中、强混杂场景下，GPI 都能保持适当的 95% 置信区间覆盖率。相比之下，基于 BERT 的方法在强混杂情况下会出现严重的覆盖不足或失效。
- 计算效率： GPI 比基于 BERT 的估计器快 10 倍以上。
- 文本复用： “文本复用”方法（重新生成现有文本）产生的方差（RMSE）比生成新文本更低，这可能是由于内部表示的一致性。
- 假设违背： 当可分离性假设被违背时（即处理特征与混杂特征纠缠在一起），包括 GPI 在内的所有方法表现都很差，凸显了该假设的重要性。
实证应用：
- 应用于候选人档案实验，GPI 估计出军事背景对选民评价具有正向且统计显著的影响（ATE $\approx$ 4.85）。
- 竞争性的基于 BERT 的方法产生了冲突的结果：一个得出了负向显著影响，另一个得出了不合理的巨大正向影响（ATE $\approx$ 45.7），这很可能是由于重叠违背导致的。
- GPI 的 IOSS 为 0.10，表明其具有比 BERT 方法（0.41）更好的支持重叠性。

意义与主张
本文声称，通过利用生成式人工智能的能力，GPI 显著增强了处理非结构化处理变量时的因果推断有效性。其主要意义在于能够：

利用 LLM 的真实内部表示将处理特征与混杂特征进行解耦。
避免从数据中学习因果表示的需求，从而减少估计误差和计算成本。
形式化进行有效识别所需的条件（可分离性），为使用 GenAI 进行因果推断提供了理论基础。
通过工具变量法将因果推断扩展到感知的处理特征。

作者指出，虽然重点是文本，但该方法论同样适用于图像，并可能适用于视频，前提是能够有效地管理其内部表示。他们强调，该方法依赖于能够访问内部表示并支持确定性解码的开源 LLM。

Causal Inference with Generative Artificial Intelligence: Application to Texts as Treatments

魔法复印机（生成式人工智能）

“去混杂器”（过滤器）

为什么这种方法更好

“文本重用”的转折

核心结论

类似论文