Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常现代且棘手的问题：在一个由“真人”和"AI 机器人”混在一起的网络世界里，我们该如何知道某项新政策（比如推送一条好消息）到底对真人产生了什么影响？

想象一下，你经营着一个巨大的在线聊天室。房间里挤满了人，但其中一半是真人，另一半是伪装成人的 AI 机器人。更糟糕的是，你根本分不清谁是谁。你只能看到大家在聊天、点赞、回复，却看不到他们的身份证。

现在，你决定给所有人发一张“成功故事”的卡片（治疗/干预），想看看这能不能让大家更开心、更活跃。

1. 核心难题：迷雾中的信号

在这个房间里，AI 机器人和真人的反应完全相反：

真人看到“成功故事”会觉得受鼓舞，更爱聊天（效果是 +）。
AI 机器人（设定为愤世嫉俗的性格）看到这种“正能量”会觉得恶心，直接闭嘴不聊了（效果是 -）。

如果你只是简单地把所有人的反应加起来算个平均值，你会发现：效果几乎为零！ 真人的开心和机器人的冷漠互相抵消了。这就好比你在称重，一边放了一块 5 公斤的石头，另一边放了一块 -5 公斤的气球，天平显示是 0。你会误以为这块石头没有重量，但实际上它对石头那一侧的影响是巨大的。

传统的统计方法在这里会失效，因为它们假设所有人都是同质的，或者假设你能看清每个人的身份。但在这个场景里，身份是隐藏的，网络关系也是混乱的。

2. 作者的解决方案：像“调音”一样找规律

作者提出了一套聪明的方法，叫**“因果消息传递”（Causal Message Passing）框架。我们可以把它想象成给房间里的不同小组“调音”**。

第一步：把人群分成不同的“混合组”

既然你分不清谁是谁，那就别分人了，而是分组。
作者把大家分成几个小组，这些小组的特点是：

A 组：里面大概有 70% 可能是真人，30% 是机器人。
B 组：里面大概有 30% 可能是真人，70% 是机器人。
C 组：里面大概有 50% 真人，50% 机器人。

虽然你不知道组里具体哪个人是真人，但你知道每个组的“真人浓度”大概是多少（这就是论文里说的“先验概率”）。

第二步：观察不同组的反应

然后，你给这些组不同程度的“成功故事”卡片：

给 A 组发得少一点。
给 B 组发得多一点。
给 C 组发得适中。

你观察这些组的整体平均反应。你会发现：

在“真人浓度高”的组里，整体反应是正向的。
在“机器人浓度高”的组里，整体反应是负向的。

第三步：数学“解方程”

这就好比你在解一个数学题。你有了几个不同的方程（不同组的反应数据），虽然变量（具体谁是谁）是未知的，但你知道系数的比例（真人和机器人的大致比例）。
通过这种**“不同浓度 + 不同刺激”的组合，作者构建了一个数学模型，能够像解方程组一样，把“真人的反应”和“机器人的反应”从混合数据中剥离**出来。

3. 核心比喻：调音台与混音

想象这个聊天室是一个巨大的混音台：

真人的声音是“高音”。
机器人的声音是“低音”。
你听到的总声音是混音。

传统的做法是试图把每个人单独摘出来听（但这不可能，因为你看不到他们）。
作者的做法是：调节音量旋钮。

当你把“真人浓度”旋钮调高，把“机器人浓度”旋钮调低，总声音里“高音”的成分就变多了。
当你反过来，总声音里“低音”就变多了。

通过观察不同旋钮设置下总声音的变化规律，你不需要知道具体哪个人在唱歌，就能完美地还原出“真人歌手”原本的声音轨迹。

4. 实验验证：用 AI 模拟 AI

为了证明这个方法有效，作者自己建了一个虚拟世界：

他们用了 200 个“人”，一半是真人（用大语言模型模拟，性格乐观），一半是 AI（也是大语言模型，但性格愤世嫉俗）。
他们故意让系统看不清谁是真人。
然后他们扔出了“成功故事”卡片。

结果令人惊讶：

普通的统计方法（比如直接看平均值）完全失败，以为没效果。
作者的方法却精准地算出了：哦，原来这个卡片让真人活跃了 0.5 个单位，让机器人减少了 0.4 个单位。

总结

这篇论文就像是在教我们：当世界变得真假难辨、充满干扰时，不要试图去分辨每一个个体，而是通过观察“不同混合比例”下的整体变化规律，用数学智慧把真相“算”出来。

这对于未来的互联网平台至关重要。随着 AI 越来越像人，我们不能再依赖“看脸”或“看 ID"来做实验了，我们需要这种**“在迷雾中通过统计规律寻找真相”的新工具，才能真正知道我们的政策对人类**意味着什么。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Causal Effects with Unobserved Unit Types in Interacting Human–AI Systems》（交互型人机系统中未观测单元类型的因果效应）的详细技术总结。

1. 研究背景与问题定义 (Problem Definition)

核心问题：
在在线平台（如社交媒体）中，人类用户与 AI 驱动的智能体（Bot）共同存在并相互作用。研究者希望评估干预措施（Treatment）对人类用户的因果效应。然而，面临以下严峻挑战：

单元类型未观测 (Unobserved Unit Types)： 平台无法确切知道某个用户是“人”还是"AI"，只能获得一个先验概率（Prior Probability, $Q_i$ ），表示该用户是人的可能性。
交互网络未观测 (Unobserved Interaction Network)： 用户之间的具体交互结构（谁影响了谁）通常是未知的或难以完全追踪的。
异质性与干扰 (Heterogeneity & Interference)： 人类和 AI 对干预的反应不同（异质性），且干预效果会通过社交网络在两者之间传播（网络干扰/溢出效应）。
目标冲突： 传统的因果推断方法通常假设单元同质或已知类型，而现有的网络干扰方法往往忽略类型差异。如果直接计算整体平均效应，人类和 AI 相反的反应可能会相互抵消，导致无法识别出对人类真实的因果效应。

研究目标：
在仅知道每个单元是人类的先验概率分布（ $Q_i$ ），且不知道具体类型和交互网络的情况下，从聚合数据中一致地估计人类总处理效应 (Human Total Treatment Effect, H-TTE)。

2. 方法论 (Methodology)

作者提出了一种基于因果消息传递 (Causal Message Passing, CMP) 框架的扩展方法，将类型结构嵌入到动态干扰模型中。

2.1 模型设定

状态演化 (State Evolution)： 假设结果 $Y_t$ $Y_{t}$ 由线性动态模型生成，包含：
- 基线效应（人类 $\delta_H$ vs AI $\delta_A$ ）。
- 直接处理效应（人类 $\tau_H$ vs AI $\tau_A$ ）。
- 交互效应：当前处理、滞后结果及其交互项通过权重矩阵（ $A_{ij}, B_{ij}$ ）在网络中传播。
关键假设：
- 干扰权重服从高斯分布，其均值取决于接收影响单元的类型（人类或 AI）。
- 随着群体规模 $N \to \infty$ ，样本均值的结果演化收敛于一个确定性的低维状态演化方程。

2.2 核心洞察：子群体构建 (Subpopulation Construction)

由于无法观测单个单元的类型，作者提出通过构建子群体 (Subpopulations) 来利用分布信息：

分层 (Stratification)： 根据先验概率 $Q_i$ 将用户分层（例如：高人类概率组、低人类概率组）。
暴露多样性 (Exposure Diversity)： 在每个分层内，根据用户接受处理的时长或强度构建不同的子群体。
识别机制： 不同的子群体具有不同的人类构成比例 ( $q^{(k)}$ $q^{(k)}$ ) 和不同的处理暴露路径 ( $\pi^{(k)}_t$ $π_{t}^{(k)}$ )。
- 理论证明：在大样本极限下，子群体的平均结果演化仅取决于其平均人类构成 ( $q^{(k)}$ ) 和平均处理暴露，而不需要知道具体的网络结构或个体类型。
- 通过观察不同 $q^{(k)}$ 和 $\pi^{(k)}_t$ 组合下的结果轨迹，可以解耦并识别出人类特有的参数（ $\delta_H, \tau_H$ ）和 AI 特有的参数。

2.3 估计算法 (Algorithm 1)

算法分为三步：

计算摘要统计量： 对每个子群体 $S_k$ ，计算平均结果 $\hat{Y}^{(k)}_t$ 、平均处理率 $\hat{\pi}^{(k)}_t$ 和平均人类构成 $\hat{q}^{(k)}$ 。
拟合状态演化方程： 利用最小二乘法拟合参数 $\theta = (\delta_H, \delta_A, \tau_H, \tau_A, \dots)$ $θ = (δ_{H}, δ_{A}, τ_{H}, τ_{A}, \dots)$ ，使得模型预测的轨迹与实际观测的聚合轨迹误差最小。
- 模型形式： $\nu_t = \text{Baseline} + \text{DirectEffect} \times \pi_t + \text{Interference} \times (\text{Past Outcomes} \dots)$
反事实投影 (Counterfactual Projection)：
- 利用拟合好的参数，模拟两个反事实世界：
  - 全处理世界： 所有人 ( $q=1$ ) 都接受处理 ( $\pi=1$ )。
  - 全控制世界： 所有人 ( $q=1$ ) 都不接受处理 ( $\pi=0$ )。
- 计算两者之差，即为估计的 H-TTE。

3. 主要理论贡献 (Key Contributions)

理论框架扩展： 将 CMP 框架从同质群体扩展到未观测类型 (Latent Types) 的异质群体。证明了仅凭群体构成的分布知识（Distributional Knowledge），无需观测具体网络或个体类型，即可识别类型特定的因果效应。
状态演化方程 (ESE) 推导： 推导了包含人类/AI 混合类型的低维确定性状态演化方程，证明了样本均值的演化仅依赖于平均构成参数。
一致性证明： 在满足特定的设计识别条件（如子群体在构成和处理强度上存在交叉变化）下，证明了估计量在大样本下是一致 (Consistent) 的。
LLM 仿真环境构建： 开发了一个基于大语言模型 (LLM) 的混合人机社交平台模拟器。
- 人类： 使用温度参数 1.0（随机性高），性格设定为“乐观”。
- AI： 使用温度参数 0.2（确定性高），性格设定为“愤世嫉俗”。
- 干预： 推送“成功故事”以对抗 AI 生成的负面内容。

4. 实验结果 (Results)

实验在一个包含 200 个用户（50% 人，50% AI）的模拟平台上进行，持续 16 轮（4 轮预热 +12 轮实验）。

基准对比： 将提出的算法与以下基线对比：
- 标准 CMP（忽略类型差异）。
- 差异均值法 (DIM) 及其过滤变体。
- Hajek 加权估计量。
关键发现：
- 真实效应： 干预对人类有显著正向影响（H-TTE $\approx$ +0.5），但对 AI 有负向影响（AI 看到积极内容会减少互动）。
- 总体效应抵消： 由于正负抵消，整体平均效应接近于 0 (+0.043)。
- 基线失效： 所有未考虑类型异质性的基线方法（包括 CMP）估计出的效应都接近 0，甚至符号错误，因为它们捕捉到的是被抵消后的净效应。
- 算法表现： 提出的算法能够准确恢复人类特有的因果效应。
  - 在分类器精度 $a=0.8$ （约 2% 误分类）时，平均绝对误差仅为 0.037。
  - 即使在分类器精度较低 ( $a=0.7$ ) 或较高 ( $a=0.9$ ) 的情况下，算法仍能保持稳健，尽管存在轻微的偏差 - 方差权衡。
鲁棒性： 即使先验概率 $Q_i$ 存在噪声，只要子群体构建得当，利用分布差异仍能实现有效识别。

5. 意义与影响 (Significance)

解决新兴挑战： 随着 AI 代理在数字平台上的普及，区分人类与 AI 变得日益困难。该方法为在“人机混合”环境中进行可信的因果实验提供了理论依据和实用工具。
无需完全观测： 打破了传统方法需要观测个体类型或完整网络结构的限制，仅需分布层面的先验信息即可工作，极大地降低了实验门槛。
政策与平台优化： 对于平台方而言，能够准确评估干预措施对真实人类用户的影响至关重要（例如，防止 AI 干扰导致对人类用户的误判）。该方法能帮助平台识别出那些被 AI 噪音掩盖的真实人类行为模式。
方法论创新： 结合了因果推断、网络干扰建模和统计学习，展示了如何利用聚合数据的动态演化来反推微观异质性，为复杂系统下的因果推断开辟了新路径。

总结： 该论文提出了一种创新的框架，利用先验概率分布和子群体构建策略，成功在未知网络结构和未观测单元类型的混合人机系统中，从聚合数据中分离并估计出针对人类用户的因果效应。实验证明，该方法能有效克服 AI 与人类反应相互抵消的干扰，准确捕捉真实的人类行为变化。