想象一下，你正在尝试教导一个超级智能的 AI 如何预测随时间变化的系统的未来，例如药物在人体内的代谢过程，或者风洞对突发气流的反应。

通常，AI 模型以“快照”的方式看待时间——就像一本翻页书，每一页都是固定的时刻（1 秒、2 秒、3 秒）。但现实世界并不等待时钟滴答作响，它是连续流动的。

本文旨在教导 AI 理解这种流动，而不仅仅是那些快照。以下是使用简单类比进行的拆解：

1. 问题所在：“停 - 启”陷阱

作者指出了一个常见的错误。如果你试图通过仅在特定时间展示快照来教导 AI 了解连续过程（如流动的河流），AI 学到的将是快照的时间表，而非河流本身。

类比： 想象你试图学习汽车如何加速。
- 糟糕的方法（离散/天真）： 你只在每次眨眼时查看速度表。如果你眨眼慢，你会看到缓慢的加速；如果你眨眼快，你会看到快速的加速。AI 会学到“我眨眼的速度”决定了车速，而非引擎。
- 结果： AI 会感到困惑。如果你向它展示一套新的眨眼时间表，它会失败，因为它学到的是你眨眼的模式，而非汽车的物理规律。

2. 解决方案：“高速摄像机”

本文提出了一种训练这些模型的新方法，称为连续时间因果基础模型。它们不使用每个间隔一张快照的方式，而是采用“高速摄像机”方法。

类比： 为了理解汽车，你以超高速（每秒数千帧）记录引擎运转，生成一段完美、平滑的加速视频。然后，你将这段平滑视频展示给 AI。
技巧： 即使 AI 仅在慢速快照上进行测试（例如医生每天检查一次病人），它也已经从高速训练中学习了平滑、连续的物理规律。它掌握的是“河流的法则”，而不仅仅是“快照的法则”。

3. 三个训练层级

作者创建了一个“分级列表”，用于分类不同模型处理时间的方式：

第 1 级（翻页书）： 旧方法。AI 仅知晓固定的时间步长。如果时间发生变化，它就会失败。
第 2 级（懒惰的摄影师）： AI 试图变得连续，但仅在两次观测之间拍一张照片。这更好，但如果时间间隔发生变化，它仍然会感到困惑。这就像仅凭两张模糊的照片来猜测车速。
第 3 级（高速专家）： 这就是本文所达成的成就。AI 在超精细网格（数千个微小步长）上模拟物理过程，然后仅向 AI展示它需要看到的具体时刻。
- 结果： AI 学到了系统真实且不可改变的规律。无论观测是每秒一次、每小时一次，还是在随机时间进行，它都不在乎。

4. 实验：它真的有效吗？

团队使用两种类型的“物理引擎”对此进行了测试：

线性： 简单、直线的物理现象（如弹簧）。
非线性： 复杂、扭曲的物理现象（如混沌天气系统）。

他们将“懒惰的摄影师”（第 2 级）与“高速专家”（第 3 级）进行了对决。

发现： “高速专家”每次都获胜。
惊喜： 当使用高速方法训练 AI 时，甚至不需要告诉它“观测之间经过了多少时间”。它自然而然地理解了流动。然而，当使用懒惰方法训练时，AI必须被明确告知时间间隔才能表现良好。

5. 现实世界测试（“零样本”测试）

作者尝试将他们的新型 AI 应用于其从未见过的现实世界数据（零样本）。

药代动力学： 预测血液中的药物浓度（茶碱和华法林）。尽管是在合成数据上训练的，AI 仍能令人惊讶地很好地追踪药物的升降。
物理系统： 风洞实验。AI 成功预测了风洞速度对风扇功率突然变化的反应。

核心结论

本文为 AI 构建了一个更好的“时间机器”。通过迫使 AI 学习事物如何变化的平滑、连续规律（使用高速模拟），而不仅仅是记忆数据点之间的间隔，AI 在预测未来方面变得更加聪明，即使数据以奇怪、不规则的时间到达也是如此。

本文并未声称：

它并未声称这已准备好取代医生或工程师。
它并未声称它解决了所有类型的时间序列问题。
它承认现实世界的测试是“初步的”，在用于关键情况之前需要更多工作。

这是一个基础性的步骤：证明如果你教导 AI 将时间视为流动的河流，而不是一系列踏脚石，它就能更好地学习宇宙的规律。

技术摘要：迈向连续时间因果基础模型

1. 问题陈述

先验数据拟合网络（PFNs）已通过在合成结构因果模型（SCMs）上预训练 Transformer，成功将因果推断扩展至表格数据和离散时间序列。然而，现有的时间因果先验仅在离散整数网格上运行。试图通过将机制重写为随机微分方程（SDE）并在每个观测间隔进行一次积分，从而将其简单扩展至连续时间的方法，无法实现真正的连续性。

核心问题在于，如果 SDE 仅在观测间隔处步进（朴素积分），轨迹的联合分布将依赖于具体的观测时间表。因此，该先验本质上仍是一个“披着 SDE 外衣”的离散时间马尔可夫模型，无法满足数据生成过程对观测时间具有不变性的要求。这一局限性对于具有不规则、时间表异构数据的领域至关重要，例如药代动力学（临床选择的采样时间）、具有可变延迟事件的物理系统以及包含缺失数据的电子健康记录。

2. 方法论

2.1. 定义连续时间因果先验

本文确立了一个连续时间因果先验的精确标准：采样轨迹的联合分布必须对观测时间表具有不变性。观测时间表被视为纯粹的测量，而非底层时间因果模型（TSCM）的一部分。

基于此标准，作者提出了一个三级分类体系：

等级 (A) 离散：仅在整数网格上定义的标准离散时间 SCMs。
等级 (B) 朴素连续：在每个观测间隔积分一次 SDE（在观测网格上应用 Euler–Maruyama 方法）。轨迹分布随间隔大小 $\Delta_i$ 变化，未能满足连续性标准。
等级 (C) 细网格连续：在细网格（ $\Delta_{fine} \ll \min \Delta_{obs}$ ）上积分 SDE，然后下采样至观测时间表。当 $\Delta_{fine} \to 0$ 时，该方法收敛至真实的 SDE 分布，在有限步长下近似满足连续性标准。

2.2. 连续时间先验的构建

所提出的构建方法在随机有向无环图（DAG）上实现了等级 (C)，包含以下组件：

图采样：变量从随机 DAG 或规范结构（如后门、前门、工具变量）中采样。可包含隐藏混杂因子。
机制族：
- 线性漂移：Ornstein–Uhlenbeck (OU) 过程，其中漂移是父节点的线性组合。
- 非线性漂移：使用 tanh 激活函数的小型多层感知机（MLP）替代线性父节点求和，并加以约束以确保轨迹稳定性。
机制切换：部分轨迹遵循具有粘性马尔可夫转移矩阵的连续时间机制切换 TSCM，用于模拟结构断点（例如药理学中的吸收与消除阶段）。
干预：该先验支持硬干预（设定值）、软干预（漂移偏移）以及在特定窗口内的时变干预。通过重用相同的维纳噪声生成反事实。
模拟：通过在细网格上积分 SDE 生成轨迹，使用 Euler–Maruyama 方法并在每个细步长处重采样布朗增量，随后下采样至不规则观测时间表。

2.3. 架构： $\Delta t$ 感知 PFN 编码器

该模型利用在干预前窗口上运行的因果 Transformer 编码器。

时间嵌入：模型不使用学习到的整数位置嵌入，而是采用连续时间的傅里叶嵌入： $\phi(t) = W_\phi [\sin(2\pi f_k t), \cos(2\pi f_k t)]$ 。
间隔嵌入：观测间隔（ $\Delta t_i$ ）在经过 $\log(1+\Delta t_i)$ 变换后，使用同一族嵌入。
推理：模型接收观测数据、时间戳、干预规范及查询时间，以预测干预下结果的分布。

3. 主要贡献

连续性标准：提出了一个形式化定义，要求轨迹分布对观测时间表具有不变性，并通过三级分类体系加以操作化。
等级 (C) 构建：利用细网格积分、随机 DAG、OU/MLP 漂移及不规则时间表，实现了连续时间先验的实用化。
实证验证：通过受控的 $2 \times 2$ 消融研究（编码器 $\times$ 积分器），证明细网格积分优于朴素积分，特别是在评估网格细化时。

4. 实验结果

4.1. 消融研究

作者在两种先验（线性 OU 和非线性神经漂移）上训练 PFNs，结合两种积分器（朴素与细网格）和两种编码器（仅位置与时间感知）。

积分器性能：在两种先验和所有评估离散化方案的 8 个实验单元中，细网格积分在 8 个 中均优于朴素积分。随着评估网格变细，性能差距（ $\Delta$ ）单调增大（例如，在神经先验上，随着评估子步的细化，差距从 +0.0048 增加到 +0.0088）。这证实了细网格训练使模型与真实 SDE 极限对齐，而朴素训练引入了离散化偏差。
编码器性能：时间感知编码器（间隔的傅里叶嵌入）的优势取决于积分器。
- 在朴素积分下，时间感知编码器显著优于仅位置编码器，补偿了依赖于时间表的动态特性。
- 在细网格积分下，编码器选择在经验上无效（差异为零），表明数据生成过程已变得足够独立于时间表，从而不再需要显式的间隔特征。

4.2. 零样本迁移（初步）

本文报告了在三个真实世界数据集上的初步零样本迁移结果，未进行微调：

药代动力学（茶碱与华法林）：模型在华法林血浆浓度上实现了强相关性（ $r \approx 0.88$ ），能够追踪剂量驱动的轨迹。茶碱的表现中等（线性模型 $r \approx 0.53$ ）。作者指出，由于浓度数据聚类狭窄，均方根误差（RMSE）相对于朴素基线的改进较小，但皮尔逊相关系数证实了动态追踪能力。
物理系统（因果腔室）：在风洞脉冲装置上，混合机制 PFN 在 RPM 动态上实现了 $r = 0.95$ 的皮尔逊相关系数，显著优于线性模型（ $r = 0.39$ ）。这表明模型成功捕捉了非线性的饱和指数动态。

5. 意义与主张

本文声称提供了因果基础模型的精确连续性标准，超越了离散模型的“披着 SDE 外衣”状态。其主要意义在于证明细网格积分对于实现该标准是必要的，这一点在更细的评估网格上日益扩大的性能差距中得到了证实。

作者在关于实际应用的声明上保持谨慎：

零样本迁移结果被描述为“初步”和“佐证性”，尚未能与特定领域的基线（如药代动力学中的 NONMEM）竞争。
在因果腔室上的成功需要将原本结构上不合适的“白噪声”基准切换为具有明确二元干预和真实动态的数据集。
文章承认了局限性，包括需要多种子复现、当前神经漂移无法捕捉时间相关噪声（仅能处理马尔可夫噪声），以及真实数据迁移的初步性质。

该工作将自己定位为迈向真正连续时间因果推断的基础性步骤，提供了一种构建方法，使 Transformer 能够在具有不规则观测时间表的 SDE 驱动 TSCM 族上摊销因果推断。

Towards Continuous-time Causal Foundation Models