Transformer-Based Pulse Shape Discrimination in HPGe Detectors with Masked Autoencoder Pre-training

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何更聪明地“听”宇宙信号的故事。

想象一下，你正在一个非常安静的房间里（这是物理学家寻找稀有粒子实验的环境），试图听清一根针掉在地上的声音（这是科学家寻找的“无中微子双贝塔衰变”信号）。但是，房间里充满了各种噪音：有人走动、窗户漏风、甚至隔壁的装修声（这些是背景辐射，比如伽马射线或表面α粒子）。

传统的做法是：给耳朵装一个过滤器，只允许特定频率的声音通过。如果声音听起来像“针掉地”，就保留；如果像“装修声”，就扔掉。这很有效，但有点笨拙，因为它只听了声音的“音量”和“大概节奏”，忽略了声音里更细微的“音色”和“质感”。

这篇论文提出了一种更聪明的方法：使用一种名为Transformer（一种强大的 AI 模型，就像现在流行的聊天机器人背后的技术）的“超级耳朵”，直接去听声音的原始波形，而不是只听总结后的参数。

以下是这篇论文的核心内容，用通俗的语言和比喻来解释：

1. 核心挑战：如何区分“好信号”和“坏噪音”？

在高纯度的锗探测器（HPGe）中，科学家需要区分两种事件：

好事件（PSD-pass）： 就像针掉在地上的清脆声，这是我们要找的稀有物理信号。
坏事件（PSD-fail）： 就像装修的噪音，这是需要剔除的背景干扰。

传统的做法（GBDT 模型）就像是一个经验丰富的老乐评人。他手里拿着一张清单，上面写着：“如果声音在第 3 秒达到峰值，且持续时间是 5 毫秒，那就是好信号。”他通过计算几个关键数字来做决定。这很稳健，但可能会漏掉一些声音里微妙的“情感”或“细节”。

2. 新方法：Transformer 模型（全知全能的“音乐家”）

作者开发了一种基于 Transformer 的 AI 模型。

它怎么做？ 它不像老乐评人那样只看几个数字，而是直接听整段录音。它能同时关注声音的开头、中间和结尾，甚至能发现声音里那些人类难以察觉的微小关联。
比喻： 如果说传统方法是看乐谱上的几个音符，那 Transformer 就是直接听交响乐，能感受到整个乐章的起伏和情绪。

3. 两大创新点

A. “先自学，再考试” (Masked Autoencoder Pre-training)

这是论文最精彩的部分。

问题： 给 AI 做“考试”（标记数据）很贵，因为需要物理学家专家去一个个确认哪些是好信号，哪些是坏信号。而且数据量往往不够大。
解决方案： 作者让 AI 先进行“自学”。他们把大量的未标记的录音（校准数据）拿来，随机把录音的某些部分“挖空”（Mask），然后让 AI 根据剩下的部分去猜被挖空的部分是什么。
比喻： 这就像让一个音乐学生先听几千首完整的曲子，然后老师把其中几小节盖住，让学生把盖住的部分补全。学生为了补全，必须深刻理解音乐的规律、节奏和风格。
结果： 经过这种“自学”后，AI 已经对锗探测器的声音“门儿清”了。这时候再让它去“考试”（做分类任务），它只需要很少的标记数据就能学得飞快，而且成绩比那些从零开始死记硬背（从 scratch 训练）的 AI 要好得多。这就像是一个天赋异禀的学生，只需要看几道题就能举一反三。

B. 结果如何？

更准： 在区分“好信号”和“坏噪音”的任务中，这种新 AI 模型比传统的“老乐评人”（GBDT）更准，尤其是在那些最难分辨的模糊地带。
更省： 在数据很少的情况下（比如只有几千个标记样本），新模型的表现甚至能匹敌传统模型用几万甚至几十万个样本训练出来的效果。这大大节省了实验成本和时间。
能量测量更稳： 除了分类，AI 还能更准确地计算声音的能量（就像更精准地测量针掉在地上的力度）。

4. 为什么这很重要？

对于寻找“无中微子双贝塔衰变”这种极其罕见的物理现象来说，背景噪音的剔除率直接决定了实验能不能成功。

如果能把背景噪音剔除得更干净，就能更清楚地看到那个微弱的“针掉地”的声音。
这种方法不仅适用于现在的“Majorana Demonstrator"实验，未来更大的"LEGEND"实验（像 LEGEND-1000 这种吨级探测器）也能用。
最重要的是，它证明了AI 可以直接学习原始数据，而不需要人类专家去设计复杂的规则，这为未来的物理实验打开了一扇新的大门。

总结

这篇论文就像是在说：

以前我们靠规则（几个数字）来听声音，现在我们要靠直觉（深度学习）来听声音。而且，我们发明了一种**“先听大量杂音练耳，再听少量考题”**的训练方法，让 AI 变得既聪明又高效。这让科学家们在寻找宇宙中最神秘的信号时，拥有了更敏锐的耳朵。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于基于 Transformer 和高掩码自编码器（MAE）预训练的高纯锗（HPGe）探测器脉冲形状甄别（PSD）技术的详细技术总结。

1. 研究背景与问题 (Problem)

核心挑战：在无中微子双贝塔衰变（$0\nu\beta\beta $）等稀有事件搜索中，高纯锗（HPGe）探测器的脉冲形状甄别（PSD）对于背景抑制至关重要。传统的 PSD 方法依赖于将波形压缩为一组物理启发的标量参数（如$ A_{vs}E$、LQ、DCR 等），这种方法虽然稳健，但可能会丢弃全时间序列波形中蕴含的丰富分类信息。
数据限制：在实验物理中，获取带有逐事件拓扑标签（如单点相互作用 vs 多点相互作用）的标注数据非常困难且昂贵。通常只能依赖模拟数据或分析定义的代理标签（proxy labels），这可能导致标签噪声或域不匹配。
研究目标：
1. 评估直接基于数字化波形（而非手工特征）的 Transformer 模型是否能优于传统的基于特征的方法。
2. 验证利用大量未标注波形进行掩码自编码器（MAE）自监督预训练，是否能提高下游 PSD 任务的样本效率（即在少量标注数据下达到同等性能）。
3. 研究这些优势如何随标注数据量和训练时长的变化而变化。

2. 方法论 (Methodology)

2.1 数据与预处理

数据来源：使用 Majorana Demonstrator (MJD) 的 AI/ML 数据发布集，包含 104 万条训练波形和 39 万条测试波形。
输入表示：
- 原始波形为 3800 个采样点的数字化前置放大器电荷脉冲。
- 将序列划分为 $W=10$ 个时间步的非重叠窗口（共 $L=380$ 个片段）。
- 双通道输入：除了原始波形外，还计算其一阶梯度（作为电流代理），两者共同作为输入。
- 探测器条件化：由于 26 个不同探测器的几何形状和杂质分布不同，模型引入了基于探测器 ID 的 FiLM（Feature-wise Linear Modulation）层，对嵌入向量进行缩放和平移，使模型能适应不同探测器。

2.2 模型架构

核心模型：基于 Transformer 的编码器架构。
- 层数：6 层堆叠，8 个注意力头，嵌入维度 $d=64$ 。
- 机制：使用多头自注意力机制（Multi-head Self-Attention）并行捕捉时间序列中的局部和长程依赖关系。
- 位置编码：添加正弦位置编码以保留时间顺序信息。
- 输出：全局平均池化（Global Average Pooling）生成事件级表示，随后连接分类头（PSD）和回归头（能量）。

2.3 训练策略对比

论文比较了三种策略：

GBDT 基线：基于手工提取的 12 个几何特征（如最大电荷、时间索引、脉宽等）训练的梯度提升决策树（Gradient-Boosted Decision Tree）。
监督训练（从头开始）：直接在标注数据上训练 Transformer。
MAE 预训练 + 微调：
- 预训练阶段：在大量未标注波形上，随机掩码 50% 的时间窗口，训练模型重建被掩码的波形和梯度。此阶段不使用 Dropout 或 Stochastic Depth，专注于学习通用波形特征。
- 微调阶段：丢弃解码器，将预训练的编码器权重初始化到监督模型中，在少量标注数据上进行端到端微调（PSD 分类 + 能量回归）。

3. 关键贡献 (Key Contributions)

探测器条件化 Transformer 架构：开发了一种直接在数字化电荷迹线上操作的 Transformer 架构，避免了手工特征压缩，并通过 FiLM 机制实现了跨探测器的自适应。
MAE 提升样本效率：证明了在 HPGe 波形分析中，利用未标注校准数据进行 MAE 自监督预训练，可以显著减少下游任务对标注数据的需求（在低标签区域减少 2-4 倍）。
端到端建模的优势：基准测试表明，端到端的波形建模在最具挑战性的 PSD 目标（如 DCR 和 LQ）以及综合"PSD 通过”定义上，均显著优于传统的 GBDT 方法。
能量回归的改进：微调后的模型在能量回归任务上表现出比从头训练更窄的残差分布，尽管两者都存在轻微的低估偏差。

4. 实验结果 (Results)

4.1 PSD 分类性能

整体表现：Transformer 模型在所有四个 PSD 标签（DCR, High/Low $A_{vs}E$ , LQ）上均优于 GBDT 基线。
具体指标：
- LQ（迟滞电荷）：Transformer 的 AUROC 从 GBDT 的 0.924 提升至 0.993（微调版），F1 分数从 0.917 提升至 0.972。
- DCR（延迟电荷恢复）：AUROC 从 0.854 提升至 0.925。
- 综合 PSD 通过（PSD-pass）：这是最关键的指标（需同时通过所有四个切割）。微调 Transformer 的 AUROC 达到 0.9918，F1 达到 0.9415，显著优于 GBDT（AUROC 0.9598, F1 0.8733）。
微调 vs 从头训练：在较难的标签（DCR, LQ）上，微调带来的提升最为明显（例如 LQ 的 AUROC 从 0.980 提升至 0.993）。

4.2 样本效率（低数据 regime）

数据量影响：在标注数据极少（如 65k 条波形）且训练轮次较少（2-5 个 epoch）的情况下，MAE 预训练的优势巨大。
- 例如，在 65k 数据 + 2 个 epoch 下，微调模型在 Low $A_{vs}E$ 上的 AUROC 为 0.880，而从头训练的模型仅为 0.660。
- 微调模型仅用 65k 数据达到的性能，相当于从头训练模型使用 260k 数据（约 4 倍数据量）的效果。
饱和趋势：随着数据量增加（至 104 万条）和训练轮次增加，优势逐渐缩小，但在最难的任务上仍保持可见的差距。

4.3 能量回归

两种训练策略均表现出约 0.8% 的能量低估。
微调模型的标准差（ $\sigma$ ）为 0.0407，略优于从头训练的 0.0424，表明微调能更紧密地拟合校准能量标签。

5. 意义与展望 (Significance)

对稀有事件搜索的启示：该方法为 LEGEND-200 和未来的 LEGEND-1000 项目提供了强有力的工具。通过提高 PSD 性能并减少对昂贵标注数据的依赖，可以更有效地抑制背景，从而提升对无中微子双贝塔衰变的灵敏度。
方法论推广：证明了自监督学习（特别是 MAE）在粒子物理实验数据分析中的巨大潜力。利用实验中 abundant 的未标注校准数据来学习通用的探测器响应特征，是一种可推广到其他探测器技术（如液氩时间投影室 LArTPC）的范式。
未来工作：
- 需要在不同探测器、运行条件和校准状态下测试模型的鲁棒性。
- 需要评估在 $Q_{\beta\beta}$ 感兴趣区域附近的能量依赖性能。
- 最终需要将分类性能的提升转化为具体的半衰期灵敏度增益，这需要结合信号效率、背景接受度和系统不确定性的全面分析。

总结：该论文成功展示了基于 Transformer 的端到端波形分析结合 MAE 自监督预训练，能够显著超越传统的特征工程方法，特别是在数据稀缺和任务困难的场景下，为下一代稀有事件实验的数据分析提供了新的技术路线。