Event Tokenization and Masked-Token Prediction for Anomaly Detection at the Large Hadron Collider

本文提出了一种用于大型强子对撞机的创新无监督异常检测方法,该方法利用基于掩码标记预测训练的轻量级、类编码器结构的类大语言模型网络,通过在无需预先知晓信号特征的情况下,通过检测背景事件重建中的偏差来识别如四顶夸克产生等新物理信号。

原作者: Ambre Visive, Polina Moskvitina, Clara Nellist, Roberto Ruiz de Austri, Sascha Caron

发布于 2026-01-28
📖 1 分钟阅读🧠 深度阅读

原作者: Ambre Visive, Polina Moskvitina, Clara Nellist, Roberto Ruiz de Austri, Sascha Caron

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,大型强子对撞机(LHC)就像一个巨大的、高速的汽车碰撞模拟器。每一秒钟,它都会将粒子撞在一起,产生一场混乱的碎片爆炸。物理学家们正在寻找一种非常特定、极其罕见的碰撞——就像是在寻找一种特殊的、不寻常的划痕,而这种划痕只有在某种秘密的、看不见的力作用时才会出现。这就是所谓的“信号”。

问题在于,大多数碰撞看起来都非常相似。它们是“背景噪声”。在这篇论文中,作者们试图在没有预先知道“针”长什么样的情况下,在草堆中寻找这根针。

以下是他们是如何实现的,他们借鉴了计算机学习阅读和写作的一种巧妙技巧。

1. 将物理学转化为一种语言

作者们意识到,这些粒子碰撞的数据可以被视为语言中的一个句子。

  • “单词”: 不同于字母,“单词”(或标记/tokens)是碰撞中飞出的粒子。有些是能量喷流,有些是电子,有些是缪子。
  • “句子”: 单个碰撞事件是一个由大约18个这样的“单词”组成的句子,外加一些描述总缺失能量(就像拼图中的缺失部分)的额外数字。

为了让这项工作对计算机可行,他们必须将这些物理粒子转化为机器能理解的代码。他们创建了一个系统,为每种粒子类型及其速度/方向分配一个特定的数字,从而将复杂的物理事件转化为一个简单的数字列表,例如 [3, 1, 5, 2, ...]

2. “填空”游戏

该团队使用了一种被称为“大语言模型”(LLM)的人工智能——也就是驱动聊天机器人的那种技术。然而,他们并没有教它写故事。相反,他们教它利用仅有的“背景”碰撞(即那些常见的、平庸的碰撞)来玩一场“填空”游戏。

  • 训练: 他们向人工智能展示了数千个正常的碰撞,但在每个句子的中隐藏了一个“单词”(粒子)。人工智能必须根据句子的其余部分来猜测这个缺失的粒子是什么。
  • 目标: 人工智能学习了正常粒子碰撞的“语法”。它学会了例如:“如果我在这里看到一个重喷流,我通常会预期在那个位置看到特定类型的电子。”

3. 识别异常

一旦人工智能成为了预测“正常”碰撞的专家,他们就在新数据(包括他们正在寻找的稀有“信号”碰撞)上对其进行了测试。

  • 测试: 他们在一个碰撞事件中隐藏了一个粒子,并要求人工智能猜出它。
  • 结果: 当人工智能观察一个正常的碰撞时,它在大多数情况下都能猜对。但当它观察那个罕见的、“四顶夸克”碰撞时,它感到困惑了。因为这种罕见的事件并不遵循正常背景的“语法”,所以人工智能的猜测是错误的。
  • 警报: 人工智能出错的程度越高,就越有可能表明该事件是一个异常值(即他们想要寻找的信号)。

4. 效果如何?

作者们通过搜索“四顶夸克”产生过程(这是一个非常罕见的事件,其中四个重粒子同时被创造出来)来测试这种方法。

  • 得分: 他们测量了人工智能区分“正常”碰撞与“稀有”碰撞的效果。他们得到了一个分数(称为 ROC-AUC),为 0.67
  • 对比: 他们将这种方法与现有的其他寻找异常的方法进行了比较。
    • 它没有击败目前最优秀的方法(称为 DDD)。
    • 然而,它比另外两种常见的方法(DeepSVDD 和 DROCC)表现得更好

核心结论

论文声称,将粒子物理数据视为一种语言并使用“填空式”人工智能,是寻找罕见、未知物理事件的一种极具前景的新方法。虽然它目前还不是完美的解决方案,但它成功识别出了其他方法未能发现的数据中的细微差异,这表明这种“基于语言”的方法可以成为未来 LHC 发现过程中一个有价值的工具。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →