Methods for Reproducible Comparison of Strategies in Stochastic Modelling

想象你是一位政策制定者，正试图在两种不同的疾病防控策略之间做出抉择，例如策略 A（一种新疫苗）和策略 B（无所作为）。你拥有一个计算机模型，用于模拟疾病的传播过程。由于现实生活既混乱又不可预测，你的模型采用了“随机”模拟。这就像是通过掷骰子来决定谁下一个会生病。

问题在于，当你先运行策略 A 的模型，然后再运行策略 B 的模型时，每次的“骰子点数”都完全不同。这就像比较两份不同的天气预报：一份预测下雨，因为计算机掷出了 3；另一份预测晴天，因为它掷出了 6。你无法判断结果的差异究竟是因为某项策略实际上更优，还是仅仅因为其中一项策略的随机骰子点数恰好运气不佳。这种“噪声”使得很难确定哪种策略才是真正的赢家。

本文介绍了一种巧妙的方法来消除这种噪声，从而让你能够公平地比较各项策略。

核心思想：“平行宇宙”技巧

作者提出了一种名为基于哈希的匹配（Hash-Based Matching）的方法。可以这样理解：

想象你正在赛道上测试两辆不同的汽车（策略 A 和策略 B）。

旧方法（常规随机模拟）： 你在一个有顺风的好天气里驾驶 A 车，而在一个有逆风的雨天里驾驶 B 车。如果 A 车获胜，你无法确定是因为车本身更好，还是因为天气更 favorable。
新方法（基于哈希）： 你在完全相同的一天、完全相同的赛道、完全相同的风向下驾驶这两辆车。唯一改变的是汽车本身。

在计算机模型中，“天气”就是随机数生成。作者使用一种称为哈希函数的数学工具，将其作为“时间机器”或“共享现实”。

以下是其工作原理的通俗解释：

盐值（The Salt）： 他们为每次模拟运行分配一个独特的“盐值”（就像一个秘密 ID 号码）。
哈希（The Hash）： 在计算机为任何事件（例如一个人被感染）掷骰子之前，它会查看当前时间、事件类型和秘密 ID。它将这些输入通过“哈希机器”处理，生成一个特定的种子。
结果（The Result）： 由于两种策略在同一时刻的输入是相同的，因此“骰子点数”也会相同。如果策略 A 中有 5 人被感染，模型会确保：如果条件相同，底层的随机性也会导致策略 B 中有 5 人被感染。

这使得模型能够看到策略之间的真实差异，剔除由随机运气造成的混淆。

提出的三种方法

根据模型的复杂程度，本文提出了三种具体的实施方法：

1. 默认哈希方法（“比例”方法）

工作原理： 它使用标准的随机数生成器，但在每个事件发生前通过哈希函数重置种子。
类比： 想象两个水桶。如果你向 A 桶注水，哈希方法会确保：如果 B 桶的水量是 A 桶的两倍，那么 B 桶也会恰好获得两倍量的“随机飞溅”。
优缺点： 它速度快且易于使用。然而，它有一个小特点：它假设随机性与人数完美成比例。这就像说，如果有 100 个人，那么“坏运气”恰好是只有 1 个人时的 100 倍。这通常没问题，但对于每一个个体而言，并非完全符合现实。

2. 伯努利哈希方法（“个体”方法）

工作原理： 它不是为整个群体掷一次大骰子，而是为模型中的每一个人掷一枚微小的硬币，以判断他们是否会被感染。
类比： 与其猜测人群中会有多少人感冒，不如走到每个人面前，用相同的硬币翻转逻辑询问：“你中招了吗？”
优缺点： 这是最准确的方法，因为它将每个人视为独立的个体。然而，它的速度非常慢。如果你有一个拥有 100 万人口的城市，计算机需要在模拟的每一步都为这 100 万人各掷一次硬币。这就像试图一颗一颗地数海滩上的每一粒沙子。

3. 截断伯努利方法（“智能捷径”）

工作原理： 这是一种折衷方案。它知道在大多数情况下，同一时间只有少数人会生病。因此，它不是为每个人掷硬币，而是只为那些“可能”生病的少数人掷硬币，而跳过其余的人。
类比： 想象一场有 100 万张彩票的抽奖，但你知道只有 5 人会中奖。与其检查所有 100 万张彩票，不如使用一个聪明的技巧，只检查那 5 张有中奖机会的彩票。
优缺点： 它比完整的伯努利方法快得多，但对于传播缓慢的疾病来说，其准确性依然很高。它是复杂模型的“恰到好处”的解决方案。

他们的发现（结果）

作者在两个模型上测试了这些方法：

简单模型（SEIRV）： 一种针对疫苗可预防疾病的基础模型。
- 结果： 新的哈希方法清晰得多。“噪声”消失了。他们可以清楚地看到疫苗是有效的，而旧方法有时会因为模拟中的随机坏运气，让疫苗看起来无用甚至有害。
复杂模型（gHAT）： 一种关于非洲昏睡病的详细模型，涉及苍蝇、人类以及不同的干预措施。
- 结果： “截断伯努利”方法在这里胜出。它使他们能够在没有随机噪声混淆结果的情况下比较策略（例如主动筛查与媒介控制）。他们可以自信地断言：“策略 X 更好”，而无需担心计算机只是掷骰子掷得不好。

为什么这很重要

本文认为，如果没有这些方法，政策制定者可能会做出错误的决策。

风险： 如果随机噪声使一项好的策略看起来很差，政策制定者可能会拒绝一种能挽救生命的疫苗。
益处： 通过使用这些“平行宇宙”哈希方法，比较变得公平。你是在比较策略，而不是运气。

总结

本文并不声称能治愈疾病或发明新疫苗。它只是提供了一个更好的尺子，用于衡量不同策略在计算机模型中的表现。它确保了当科学家说“策略 A 优于策略 B"时，他们确实是这个意思，而不仅仅是因为他们掷骰子运气好。

简单模型： 使用伯努利方法以获得最大准确性。
复杂模型： 使用截断伯努利方法以平衡速度与准确性。
通用用途： 默认哈希方法适用于大多数情况，是一个稳健且快速的选择。

作者强调，这些方法专门用于tau-leaping模拟（运行疾病模型的一种常见方式），旨在使“反事实”（如果我们做了其他事情会发生什么）变得更加清晰，且噪声更少。

以下是 Sunnucks、Davis 和 Rock 所著论文《随机建模中策略可重复比较的方法》的详细技术总结。

1. 问题陈述

随机模拟对于建模现实世界现象（如传染病动态）至关重要，因为它们能够捕捉不确定性并产生离散的整数输出（这对建模灭绝事件至关重要）。然而，当使用这些模型比较不同的干预策略（例如策略 A 与策略 B）时，会出现一个重大挑战。

核心问题： 在标准随机模拟中，由随机数生成（RNG）引入的“噪声”在不同策略的运行之间是独立的。当比较两种策略时，这种独立性会产生统计噪声，掩盖它们之间的真实差异。
后果： 决策者可能会因为随机方差而非实际模型动态，错误地得出优越策略较差（或反之）的结论。这在计算“一种策略优于另一种策略的概率”等指标，或评估反事实情景（例如“如果我们更早干预会发生什么？”）时尤为成问题。
现有解决方案的局限性：
- 种子随机数生成（Seeded RNG）： 为不同策略设置相同的初始种子是无效的，因为模拟路径会立即发散，破坏了“相同现实”情景之间的依赖性。
- 完美反事实（如 Kaminsky 等人）： 这些方法通过追踪每个个体以确保完美对齐，但计算成本过高（需要巨大的内存和时间），且通常与标准 compartmental 模型不兼容。

2. 方法论

作者提出了一套基于**哈希的伪随机数生成（PRNG）**方法。这些方法确保当两个模拟（策略）遇到相同的“事件”（由时间、状态和事件类型定义）时，它们生成相同的随机结果，从而在实现之间建立统计依赖性（耦合）。

本文基于 hashprng 包（Pearson & Abbott），并引入了三种具体方法：

A. 默认哈希方法

机制： 在为事件抽取随机数之前（通常在 tau-leaping 算法中从泊松分布抽取），将随机种子设置为哈希函数的输出。
输入： 哈希函数接收时间步长、唯一的“盐”（标识特定模拟轨迹）和事件类型。
特性： 这确保了如果两种策略在特定时间具有相同数量的个体和速率，它们将从分布的相同百分位抽取数值。
局限性： 它表现出**“比例性”**。如果策略 B 比策略 A 多 $N$ 个个体，那么 B 中的事件数量将大致与额外个体成比例，而不是作为额外风险的独立实现。

B. 伯努利哈希方法

机制： 用伯努利试验的总和替换泊松抽取。对于 $N$ 个个体，算法抽取 $N$ 个伯努利随机变量（0 或 1），以确定每个个体是否发生该事件。
依赖性： 伯努利抽取的基础均匀随机数通过相同的哈希函数生成。
优势： 这消除了“比例性”问题。如果策略 A 有 $k$ 次感染，策略 B（具有更多易感者）将有 $k$ 到 $k + \Delta N$ 次感染，确保事件的一致性解析（更多人 $\neq$ 更少事件）。
缺点： 对于大种群，计算成本高昂，因为它需要在每个时间步为每个个体抽取一个随机数。

C. 截断伯努利哈希方法

机制： 针对大种群和低事件率设计的伯努利方法的计算优化。它不抽取 $N$ 个伯努利变量，而是使用顺序统计量（Beta 分布）从分布的尾部抽取有限数量（ $m$ ）的变量。
逻辑： 由于预期事件数通常远小于种群规模（ $E \ll N$ ），该算法仅模拟分布的“活跃”部分。
权衡： 它比完整伯努利哈希快得多，但引入了极低概率的“不一致解析”（即增加一个人理论上可能导致超过 $m$ 个事件）。随着时间步长的减小，这种概率趋近于零。

3. 主要贡献

新颖算法： 引入了伯努利哈希和截断伯努利哈希方法，扩展了现有的 hashprng 框架，以解决比例性和计算可扩展性问题。
理论框架： 正式定义了“事件的一致性解析”以及随机模型中反事实比较所需的数学属性。
比较分析： 对这些新方法与标准随机、种子随机和“完美反事实”方法进行了严格比较。
实际实施： 展示了如何将这些方法集成到复杂的流行病学模型（SEIRV 和 gHAT）中，而无需基于个体的建模（IBM）。

4. 结果

作者在两个流行病学模型上测试了他们的方法：

案例研究 1：SEIRV（简单的疫苗可预防感染）

设置： 比较疫苗接种策略与无干预措施。
发现：
- 方差降低： 与标准和种子随机方法相比，两种哈希方法都大幅降低了“避免感染数”的方差。
- 伯努利优越性： 伯努利方法提供了最低的方差（最佳统计耦合），同时为该简单模型保持了合理的运行时间。
- 真实性： 标准和种子方法偶尔会产生“负避免感染数”（暗示疫苗接种导致更多感染），这在逻辑上是不可能的。哈希方法消除了这些伪影。
- 性能： 哈希方法比标准随机方法慢（2–4 倍），但准确性的权衡被认为是必要的。

案例研究 2：gHAT（复杂的非洲昏睡病模型）

设置： 一个涉及主动筛查和媒介控制的复杂媒介传播疾病模型。
发现：
- 可扩展性： 完整伯努利方法太慢（100 倍以上）。截断伯努利方法成功实施，在速度和准确性之间提供了平衡。
- 决策制定： 在成本效益分析（净货币效益）中，哈希方法在策略之间产生了更清晰的区分。标准方法显示出高噪声，使得难以确定不同支付意愿阈值下的最佳策略。
- 最后传播事件（LTE）： 哈希方法对最后传播事件年份的预测更准确且噪声更少，这是消除目标的关键指标。

5. 意义与影响

政策影响： 这些方法使决策者能够以更高的信心做出风险规避决策。通过减少策略之间的“噪声”，可以更准确地估计一种策略真正优于另一种策略的概率，防止因模拟伪影而拒绝有益的干预措施。
计算效率： 所提出的方法在不可行的“完美反事实”（基于个体）和嘈杂的“标准随机”方法之间提供了一个“最佳平衡点”。它们适用于标准 compartmental 模型，无需完全重写模型。
通用性： 尽管在流行病学上进行了测试，但该方法适用于任何需要比较反事实情景的随机模拟（例如生态学、经济学）。
局限性： 这些方法特定于 tau-leaping 算法。伯努利方法对于高比率、大种群模型仍然计算繁重，需要使用截断版本，这带有微小的不一致理论风险。

结论： 本文确立了基于哈希的匹配是一种稳健、计算可行且统计上优越的比较随机策略的方法，显著提高了用于公共卫生政策的证据的可靠性。