Wasserstein normalized autoencoder for anomaly detection

大局观：在大海捞针（却不知道针长什么样）

想象你是一名大型机场的安保人员。每天，成千上万的人通过你的检查站。你非常清楚什么是“正常”的旅客：他们背着背包，穿着外套，可能手里还拿着一杯咖啡。这些就是你的**标准模型（Standard Model）**粒子（背景）。

但偶尔，会有人带着奇怪的东西走过来——也许是一个发光的盒子，或者是一套由隐形织物制成的套装。这就是新物理（New Physics）（信号）。问题在于，你并不知道这个“发光的盒子”具体长什么样。它可能是任何东西。如果你试图教你的安保系统去识别某种特定类型的发光盒子，你可能会错过另一种类型的。

因此，你决定只教你的系统什么是“正常”。如果某样东西不符合“正常”的模式，你就将其标记为异常。这被称为异常检测（Anomaly Detection）。

问题所在：“过于乐于助人”的机器人

这篇论文讨论了一种特定类型的 AI，叫做自动编码器（Autoencoder）。你可以把自动编码器想象成一个试图记住一张正常旅客的照片，将其压缩成一张小纸条，然后根据这张纸条重新画出照片的机器人。

目标： 如果机器人看到的是正常的旅客，它应该能完美地重画他们（低误差）。如果它看到的是奇怪的外星人，它应该画得很吃力（高误差），然后你就标记出这个外星人。
故障： 有时，这个机器人表现得太好了。如果外星人实际上比正常旅客更简单（比如，外星人只是一个纯灰色的色块，而正常旅客有复杂的图案），机器人可能会意外地学会也完美地重画这个外星人。
结果： 机器人认为外星人是正常的，因为它能轻松地重画它。安保系统因此失效。在论文中，他们称之为**“离群值重构”（Outlier Reconstruction）**。这就像一个伪造者，由于模仿画作的能力太强，以至于他们伪造出的假作足以乱真，让博物馆误以为那是真迹。

第一次尝试：“归一化”机器人 (NAE)

为了修复这个问题，科学家们尝试了一个更聪明的机器人，叫做归一化自动编码器（Normalized Autoencoder, NAE）。

这个机器人不仅仅是尝试重画图片，它还试图学习正常旅客出现的概率。它使用了一个涉及“马尔可夫链”（可以想象成随机游走）的数学技巧来生成虚假的“负面”样本。它会问自己：“如果我编造一个随机的旅客，它看起来像我见过的真实旅客吗？”

目标： 它试图确保任何看起来“奇怪”（低概率）的东西都会得到一个高“误差分”。
新的故障： 这个机器人不稳定。有时，它会感到困惑并开始“发散”。它可能会认为赢得游戏的最佳方式是让所有东西都变得难以重画，或者它可能会坍缩到一种状态，即为了最小化自己的数学得分，它会完美地重画所有东西，包括那些奇怪的外星人。这就像一个学生，他不去学习，而是决定通过以一种破坏考试的方式死记硬背答案来作弊。

解决方案：“Wasserstein”机器人 (WNAE)

这是本论文的主要贡献。科学家们引入了Wasserstein 归一化自动编码器（WNAE）。

要理解这一点，想象你有两堆沙子：

堆 A： 真实的旅客（你的训练数据）。
堆 B： 机器人目前对旅客样貌的猜测（它学到的分布）。

在旧的方法中，机器人只是试图让这两堆沙子的形状相匹配。但有时，机器人会通过制造一个看起来相似但实际位置错误的“堆”来作弊。

Wasserstein 距离是一种衡量将沙子从“堆 B”移动到“堆 A”所需“成本”的方法。想象你必须把沙粒从一堆搬运到另一堆。Wasserstein 距离会询问：“将我的虚假堆变成真实的堆，所需的最小努力（距离 × 重量）是多少？”

WNAE 的工作原理如下：

它不仅仅是尝试重画图像；它试图最小化使其虚假数据看起来与真实数据完全一致所需的“努力”。
如果机器人试图通过完美重画一个奇怪的外星人来作弊，那么将该外星人的数据移回“正常”堆的“努力”（Wasserstein 距离）就会变得巨大。
机器人被迫停止作弊。它意识到，最小化努力的唯一方法是严格学习“正常”堆的形状，并忽略那些“奇怪”的东西。

这对论文意味着什么

科学家们在 CMS 上测试了这一点，这是一个位于欧洲核子研究中心（CERN）大型强子对撞机上的巨型粒子探测器。他们正在寻找半可见喷注（Semivisible Jets, SVJs）。

场景： 想象一个粒子喷注（就像水管喷出的水花）一半是可见的（标准粒子），一半是不可见的（暗物质）。
挑战： 这些喷注看起来与来自顶夸克（一种常见的背景）的正常喷注非常相似。标准的机器人无法区分它们，因为它们会不断地将这些奇怪的喷注“重构”为正常的喷注。
结果： WNAE 能够完美地学习“正常”喷注的分布，而无需在训练期间看到哪怕一个“奇怪”的喷注。它成功地将这些带有不可见暗物质的喷注标记为异常。

总结

论文声称，通过使用 Wasserstein 距离 作为老师，我们构建了一个机器人，它：

不会作弊： 它不能通过完美重画奇怪的事物来降低得分。
很稳定： 它不像之前的“归一化”版本那样容易崩溃或感到困惑。
具有信号无关性（Signal-agnostic）： 它不需要知道“奇怪”的东西长什么样。它只需要知道“正常”是什么样的，任何不符合该模式的东西都会被标记出来。

简而言之，他们通过赋予系统一种更好的衡量方式——即衡量一个人与人群之间“距离”远近的方式——修复了一个损坏的安保系统，从而确保即使是最巧妙伪装的入侵者也会被抓获。

技术摘要：用于异常检测的 Wasserstein 标准化自编码器 (WNAE)

问题陈述
无监督机器学习，特别是自编码器 (AE)，是识别大型强子对撞机 (LHC) 中新物理现象的一种强大工具，它能够在不依赖特定信号假设的情况下，将标准模型 (SM) 背景事件与潜在的超越标准模型 (BSM) 信号区分开来。然而，标准的 AE 面临一个关键的失效模式，即“离群值重建 (outlier reconstruction)”。在这种场景下，网络会学习以较低的误差重建异常数据点（离群值），这通常是因为这些离群值比训练数据更简单（一种被称为“复杂度偏差”的现象），或者仅仅是因为网络可以在训练分布之外的相空间区域内自由地最小化重建误差。这导致了判别能力的丧失，即重建误差无法有效区分背景与信号。

此前尝试使用标准化自编码器 (NAE) 来解决这一问题的尝试——即将 AE 重建误差框架化为玻尔兹曼分布中的能量函数——也面临着挑战。NAE 训练经常表现出数值不稳定性，包括损失函数发散以及“模式崩塌 (mode collapse)”现象，即网络学习到的概率分布与信号发生显著重叠，从而再次导致异常检测性能下降。此外，现有的 NAE 训练缺乏鲁棒的、与信号无关的停止条件，以防止过拟合和离群值重建。

方法论
作者引入了 Wasserstein 标准化自编码器 (WNAE)，这是一种旨在克服标准 AE 和 NAE 局限性的新型概率模型。其方法流程如下：

概率框架： 与 NAE 一样，WNAE 将 AE 重建误差 $l_\theta(x)$ 视为能量函数 $E_\theta(x)$ 。该模型使用玻尔兹曼分布定义了一个归一化概率分布 $p_\theta(x)$ ： $p_\theta(x) = \frac{1}{\Omega_\theta} \exp(-E_\theta(x))$ 。
马尔可夫链蒙特卡洛 (MCMC)： 为了学习分布 $p_\theta$ ，该模型采用 Langevin 蒙特卡洛算法从 $p_\theta$ 中采样“负样本”。这些样本是利用能量函数对输入特征的梯度迭代生成的。
Wasserstein 距离目标函数： 其核心创新在于直接使用 1-Wasserstein 距离（推土机距离）作为训练目标。WNAE 并不是通过最小化负对数似然（这涉及难以计算的分层函数并会导致不稳定），而是最小化训练数据分布 $p_{data}$ $p_{d a t a}$ 与模型分布 $p_\theta$ $p_{θ}$ 之间的 Wasserstein 距离 $W(p_{data}, p_\theta)$ $W (p_{d a t a}, p_{θ})$ 。
- 损失函数被定义为来自 $p_{data}$ 的正样本与来自 $p_\theta$ 的负样本之间的 Wasserstein 距离。
- 这种方法利用了 Kantorovich-Rubinstein 对偶性，从而实现了一个稳定的、可微的损失函数，不会出现其他生成模型中常见的梯度消失或模式崩塌问题。
训练动态： 训练包含两个阶段：首先是一个粗调阶段，此时 Wasserstein 距离随着模型适应物理数据而迅速下降，随后是一个微调阶段。模型采用了学习率调度器以确保稳定性。至关重要的是，Wasserstein 距离作为一个与信号无关的停止条件：当距离开始增加（表明出现了模式崩塌或离群值重建的迹象）时，训练将被停止。

案例研究与数据
该算法被应用于寻找半可见喷注 (Semivisible Jets, SVJs)，这是隐藏谷模型 (hidden valley models) 的一种特征信号，其中暗区粒子产生的喷注既包含可见的标准模型粒子，也包含不可见的暗物质状态。

背景： 带有额外喷注的模拟顶夸克-反顶夸克 ( $t\bar{t}$ ) 产生过程。
信号： 通过双基基本标量媒介子 (bifundamental scalar mediator) 生成的 SVJ 事件，具有变化的不可见比例 ( $r_{inv}$ ) 和媒介子质量 ( $m_\Phi$ )。
特征： 输入由 8 个源自粒子流重建的喷注子结构变量（如主轴/次轴、能量流多项式、 $N$ -subjettiness、softdrop 质量）组成。

关键结果

标准 AE 的失效： 当在 $t\bar{t}$ 背景上进行训练时，标准 AE 无法将 SVJs 与背景区分开，由于离群值重建，其曲线下面积 (AUC) 得分接近 0.5（即随机猜测）。
NAE 的不稳定性： 虽然 NAE 最初改善了判别能力，但它遭受了损失发散和模式崩塌的问题。随着负能量的发散，AUC 会随时间下降，且在没有信号依赖型停止条件的情况下，模型无法区分信号与背景。
WNAE 的性能： WNAE 展示了稳定的收敛训练。
- 它在广泛的 SVJ 信号假设下均实现了强大的分类性能，其 AUC 得分显著高于标准 AE，并且在最优点上与 NAE 相当甚至更好。
- Wasserstein 距离能有效与 AUC 得分相关联，提供了一个可靠的停止条件，从而防止模型学习到信号分布。
- WNAE 缓解了复杂度偏差。与标准 AE 在信号比背景更简单时表现挣扎不同，WNE 在使用 SVJ 信号进行训练时，仍能成功识别顶夸克喷注为异常值，这证明了它能够学习训练数据的真实概率密度，而非仅仅是最小化重建误差。

意义与主张
论文声称 WNAE 直接解决了基于自编码器的异常检测中“离群值重建”这一根本失效模式。通过最小化训练数据分布与模型学习到的分布之间的 Wasserstein 距离，该算法确保了与训练数据不同的相空间区域会被赋予高重建误差。

作者强调，WNAE 保持了完全无监督且与信号无关的特性。它在训练期间不需要了解信号假设，也不依赖于任何人为的正则化来稳定 NAE 损失。该方法为异常检测提供了一个鲁棒、稳定且有效的工具，能够在高能物理中识别如半可见喷注等新物理特征。论文结论指出，虽然 WNAE 在所研究的任务中是稳定的，但它可能仍受限于异常检测模型的通用限制，例如信号与背景分布的重叠，或训练数据中包含异常值的情况，尽管它也为在这种情况下的自监督精炼提供了一条路径。

大局观：在大海捞针（却不知道针长什么样）

问题所在：“过于乐于助人”的机器人

第一次尝试：“归一化”机器人 (NAE)

解决方案：“Wasserstein”机器人 (WNAE)

这对论文意味着什么

总结

类似论文