想象一下，你正试图在一片广阔而迷雾笼罩的景观中寻找最有价值的地点。这片景观代表了一个复杂的问题：某些区域“富含”答案（高概率），而其他区域则空空如也。你的目标是准确勾勒出这些富集区域，既不迷路，也不在空旷地带浪费时间。

在数据科学和统计学领域，这被称为采样。本文介绍了一种全新且高效的采样方法，称为微正则哈密顿蒙特卡洛（MCHMC），以及其近亲MCLMC。

以下是其工作原理的通俗拆解，借助日常类比：

1. 旧方法：背着背包的徒步者（标准 HMC）

想象一位徒步者（即标准算法，称为 HMC）试图绘制这片景观。

移动方式：徒步者背着一个沉重的背包（动量），这有助于他们滑过丘陵和山谷。
问题：徒步者的能量不断变化。有时背包很满，有时却很轻。为了保持有效移动，他们必须偶尔停下来，扔掉当前的背包，换上一个重量随机的全新背包。这被称为“重采样”。
弊端：如果景观很棘手（比如一条狭长的峡谷或一座多峰山脉），徒步者可能会陷入循环，永远绕着同一个地方打转，或者在富集区域移动得太慢。

2. 新方法：台球（MCHMC）

作者提出了一种不同的方法。与其想象一个不断更换背包重量的徒步者，不如想象一颗在桌面上滚动的台球。

恒定能量：这颗球永远不会获得或失去能量。它以由“地形”（问题的数学本质）决定的恒定速度滚动。如果地形“富集”（高概率），球会减速以环顾四周；如果地形“贫瘠”（低概率），它会加速以快速通过。
台球的问题：如果桌面完美光滑且呈圆形，球可能会永远在完美的、可预测的循环中弹跳，从未访问过整个桌面。它会“卡”在某种模式中。
解决方案（弹跳）：为了解决这个问题，作者添加了一条规则：偶尔，球会撞上一堵看不见的墙，并以完全随机的新方向弹开，但保持相同的速度。这种“台球弹跳”确保了球最终能访问桌面的每个角落。

3. 平滑版本：漂浮的树叶（MCLMC）

作者还创建了一个更平滑的版本，称为MCLMC。

与其等待一次巨大而突然的弹跳，不如想象这颗球实际上是一片漂浮在河流上的树叶。
在每一个微小的步骤中，水流都会轻轻地将树叶从其航道上推偏一点点，但不足以使其停止。这是一种连续的、温和的“摇摆”，而非剧烈的撞击。
这使得树叶能够非常高效地探索河流，不断混合其路径，而无需停止。

为什么这更好？

论文声称，与旧徒步者相比，这些新方法就像是超级快速的探索者：

速度：它们解决难题（例如在高维数据中寻找模式）的速度比当前最佳方法快10 到 100 倍。
无需调参：通常，这些算法需要人类花费大量时间“调整”设置（例如调整步长大小或弹跳频率）。作者创建了一个智能的自动系统，能瞬间找出完美的设置，就像一辆配备自适应巡航控制的汽车，能自动根据路况进行调整。
处理棘手形状：它们特别擅长导航“病态”景观——想象一下长而细的香蕉形状，或者路径变得非常狭窄的漏斗。旧方法经常在这里卡住，但新方法却能轻松滑过。

“秘密武器”：地图与地形的关系

论文解释说，这些方法通过改变观察地图的方式来发挥作用。

在旧方法中，徒步者试图沿着土地的实际形状行走。
在新方法中，算法“扭曲”了地图。它将空旷的低概率区域拉伸，将高概率区域压缩。这使得“富集”点看起来像平坦、易于行走的平原，让球能够自然地在那里花费更多时间，而无需停下来思考。

总结

本文介绍了一种探索复杂数据景观的新方法。与其使用一个不断更换装备的徒步者，不如使用一颗以恒定能量滚动但偶尔向随机方向弹跳（或轻微摇摆）的球。这确保了它们能够快速、高效地覆盖整张地图，并自动根据地形调整速度，使其在解决复杂统计谜题时比以前的方法更快、更可靠。

技术摘要：微正则哈密顿蒙特卡洛

问题陈述

从 $p(x) = e^{-L(x)}/Z$ 这样的高维概率分布中进行采样，是贝叶斯推断到统计物理等各个领域的根本性挑战。标准的哈密顿蒙特卡洛（HMC）方法从正则系综中采样，其中系统能量会发生波动，需要偶尔进行随机动量重采样以确保遍历性。然而，HMC 可能面临收敛缓慢和高自相关的问题，特别是在病态或高维问题中。

最近提出的确定性方法，如 Ver Steeg 和 Galstyan (2021) 提出的能量采样哈密顿（ESH），试图在不进行动量重采样的情况下，从固定能量（微正则）面上进行采样。虽然确定性方法在理论上能提供更低的噪声和更快的收敛速度，但作者证明 ESH 通常不具备遍历性。具体而言，运行多个具有确定性 ESH 动力学的独立链并不能保证收敛到真实的目标分布，因为系统可能会被困在能量面的非遍历子集中。

方法论

本文介绍了微正则哈密顿蒙特卡洛（MCHMC），这是一类在采样过程中严格守恒能量的模型。其核心思想是调整哈密顿函数 $H(x, \Pi)$ ，使得在动量变量上对恒定能量面上的均匀分布进行边缘化后，能得到所需的靶分布 $p(x)$ 。

1. 哈密顿量调节

作者推导出了一族哈密顿量，其中动能项 $T(\Pi)$ 通过连续指数 $q$ 依赖于动量幅值 $|\Pi|$ 。通过求解边缘化条件，他们确定了匹配目标密度所需的势能 $V(x)$ 。

变质量哈密顿量（ $q=0$ ）： 这种选择导出的哈密顿量等价于一个具有位置相关质量 $m(x) \propto p(x)^{-2/d}$ 的粒子。在这种表述中，粒子在高密度区域移动较慢，在低密度区域移动较快。这是本文的主要关注点。
标准动能（ $q=2$ ）： 对应于 $H = \frac{1}{2}|\Pi|^2 + V(x)$ ，其中势能以不同的方式进行调整。
相对论哈密顿量： 一种不可分离的选项，但由于积分器复杂，分析较少。

2. 确保遍历性：动量退相干

作者指出，在固定能量面上的确定性演化不足以实现遍历性。他们提出了两种随机机制，在守恒能量的同时打破动量相关性：

MCHMC（类台球反弹）： 动量方向在离散的时间间隔内被随机重新定向（各向同性），而动量幅值（从而能量）保持不变。这相当于标准 HMC 中动量重采样的能量守恒类比。
微正则朗之万式蒙特卡洛（MCLMC）： 与离散的反弹不同，动量方向在每一步都被部分刷新。这引入了非高斯噪声，产生了一种保持能量的欠阻尼朗之万式动力学。

3. 超参数调节

本文的一个重要贡献是开发了一种高效且 largely 自动的调节方案，用于两个关键超参数：积分步长 $\epsilon$ 和动量退相干尺度 $L$ （或反弹频率）。

步长（ $\epsilon$ ）： 通过监测能量波动的方差（$Var[E] $）进行调节。作者发现，目标$ Var[E]/d \approx 0.001 $（或保守的$ 0.0003$）能在保证低偏差的同时避免不稳定性。
退相干尺度（ $L$ ）： 通过将 $L$ 与分布的“典型集”大小相关联进行调节。对于高斯靶分布， $L \propto \sqrt{d}$ 。对于非高斯靶分布，基于有效方差的初始估计会通过自相关分析进行细化，以确定有效样本量。

4. 几何解释

本文提供了一个几何视角，表明 MCHMC 动力学等价于在具有共形平坦度量 $g_{ij}(x) \propto p(x)^{2/d} \delta_{ij}$ 的黎曼流形上的测地线运动。“反弹”被解释为必要的干预措施，以确保在该流形上的遍历性，特别是在曲率可能无法自然诱导充分混合的区域。

主要结果

作者在几个基准问题上将 MCHMC 和 MCLMC 与 NUTS（最先进的 HMC 变体）和非调整 HMC 进行了评估：

病态高斯分布： 对于条件数 $\kappa=100$ ，MCLMC 的表现比 NUTS 好一个数量级以上（10 倍以上），且随着 $\kappa$ 的增加，优势进一步扩大。
双峰分布： MCHMC 在有效样本量（ESS）方面比 NUTS 提高了 6 到 10 倍。
Rosenbrock 函数： MCHMC 比 NUTS 提高了 4 倍。 $q=2$ 的哈密顿量表现显著差于 $q=0$ （变质量）的选择。
Neal 的漏斗与随机波动率： MCHMC 将 ESS 比 NUTS 提高了 11 到 23 倍。
柯西分布： 对于二阶矩发散的厚尾分布，MCLMC 的收敛速度显著快于 NUTS，在 $10^6$ 次梯度调用中产生了超过 600 个有效样本，而 NUTS 收敛缓慢。

至关重要的是，本文证明了在没有动量退相干的情况下（纯 ESH 或“无反弹”MCHMC），算法在这些基准上无法收敛，从而证实了所提出的随机干预措施的必要性。

意义与主张

本文主张，MCHMC 和 MCLMC 通过利用能量守恒动力学，为正则 HMC 提供了一种稳健的替代方案。关键意义点包括：

遍历性： 作者证明了确定性微正则采样是不够的，能量守恒的动量反弹对于遍历性至关重要，这解决了先前确定性方法（如 ESH）的局限性。
效率： 所提出的方法在条件数和维度方面表现出有利的扩展性，在标准基准测试中通常比 NUTS 好出几个数量级。
调节： 开发了一种基于能量波动监测和典型集缩放的“免调节”（或低成本调节）方案，使得这些方法在实际应用中无需 extensive 手动超参数搜索即可实用。
偏差控制： 与依赖 Metropolis 调整来校正偏差的标准 HMC 不同，MCHMC 通过步长选择（保持能量波动较小）来控制偏差，这是分子动力学中的常见策略，但在贝叶斯推断中较少被强调。

作者总结道，虽然哈密顿模型类很广泛，但将采样解释为共形平坦流形上的测地线运动的几何解释，为理解和扩展这些方法提供了一个强大的框架。他们指出，他们的自动调节方案在广泛的靶分布中接近最优，尽管更复杂的方法（例如 ChEES）可能会以更高的计算成本提供进一步的改进。

Microcanonical Hamiltonian Monte Carlo