Transformer-Based Pulse Shape Discrimination in HPGe Detectors with Masked Autoencoder Pre-training

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv in einem riesigen, sehr leisen Raum (dem Universum), in dem Sie nach einem winzigen, fast unmöglichen Geräusch suchen: dem „Klick" eines Atomkerns, der sich in zwei Teile spaltet, ohne dabei ein Neutrino zu produzieren. Das ist die Suche nach dem neutrinolosen Doppelbeta-Zerfall.

Um dieses winzige Geräusch zu hören, nutzen Wissenschaftler extrem empfindliche Mikrofone aus reinem Germanium (die HPGe-Detektoren). Aber das Problem ist: Der Raum ist voller „Störgeräusche" (Hintergrundstrahlung), die wie ein lautes Summen klingen. Die Aufgabe der Wissenschaftler ist es, das echte Signal von den Störgeräuschen zu unterscheiden.

Hier kommt die Pulsform-Diskriminierung (PSD) ins Spiel.

Das alte Problem: Der Zusammenfassungszettel

Früher haben die Wissenschaftler die komplexen Wellenformen (die Schwingungen, die das Mikrofon aufzeichnet) wie einen langen Roman behandelt. Um sie zu analysieren, haben sie den Roman gelesen und nur drei oder vier Sätze zusammengefasst (z. B. „Wie laut war es?", „Wie lange dauerte es?").

Das Problem: Wenn man einen Roman nur zusammenfasst, verliert man viele Details. Vielleicht war es im Originaltext ein wichtiges Detail, das in der Zusammenfassung verloren ging. Genau so gehen bei den alten Methoden wichtige Informationen über die Form der Welle verloren.

Die neue Lösung: Der KI-Leser (Transformer)

In diesem Papier stellen die Autoren eine neue Methode vor, die auf Transformern basiert. Das ist eine Art künstliche Intelligenz (KI), die wie ein sehr schneller, aufmerksamer Leser funktioniert.

Die Analogie: Statt nur die Zusammenfassung zu lesen, liest diese KI den ganzen Roman, Wort für Wort, Zeile für Zeile. Sie beachtet nicht nur das einzelne Wort, sondern versteht, wie ein Wort am Anfang des Satzes mit einem Wort am Ende zusammenhängt.
Der Vorteil: Die KI schaut sich die komplette Welle an, ohne Details zu verlieren. Sie erkennt Muster, die für das menschliche Auge oder die alten Methoden unsichtbar waren.

Der Trick: Lernen ohne Lehrer (Masked Autoencoder)

Ein großes Problem beim Trainieren von KI ist: Man braucht viele Beispiele, bei denen man weiß, ob es ein echtes Signal oder ein Störgeräusch ist. Diese „richtigen" Antworten (Labels) zu bekommen, ist aber sehr mühsam und teuer. Man hat aber Millionen von Wellenformen, bei denen man nicht weiß, was sie sind (unbeschriftete Daten).

Die Autoren nutzen einen cleveren Trick, den sie Masked Autoencoder (MAE) nennen:

Die Analogie: Stellen Sie sich vor, Sie wollen ein Kind im Lesen unterrichten. Normalerweise müssten Sie ihm jeden Tag ein Buch mit Lösungen geben (beschriftete Daten). Das ist anstrengend.
Der Trick: Sie nehmen ein Buch, reißen zufällig die Hälfte der Seiten heraus (maskieren) und sagen dem Kind: „Lies den Rest und errate, was auf den fehlenden Seiten steht!"
Das Kind muss sich die Struktur der Sprache, die Grammatik und den Stil merken, um die fehlenden Teile zu erraten. Es lernt also die Sprache der Wellenformen, ohne dass jemand ihm sagen muss, was ein echtes Signal ist.
Das Ergebnis: Wenn das Kind dann später endlich die echten Aufgaben bekommt (die beschrifteten Daten), ist es schon ein Experte für die Sprache. Es braucht viel weniger Zeit und weniger Beispiele, um die echten Signale zu erkennen.

Was haben sie herausgefunden?

Die KI ist besser als die alten Methoden: Die Transformer-KI hat die alten Methoden (die nur auf Zusammenfassungen basierten) in allen Tests geschlagen. Sie ist besonders gut darin, die schwierigsten Fälle zu unterscheiden.
Der „Vor-Trick" spart Zeit: Durch das „Erraten der fehlenden Seiten" (MAE) konnten sie die benötigte Menge an beschrifteten Daten um das 2- bis 4-fache reduzieren. Das ist wie ein Turbo für die Forschung.
Energie-Messung: Die KI kann auch sehr gut die Energie des Signals berechnen, sogar etwas genauer als wenn man sie von Grund auf neu trainiert.

Warum ist das wichtig?

Für die Suche nach dem „Heiligen Gral" der Physik (dem neutrinolosen Doppelbeta-Zerfall) ist jede Verbesserung entscheidend. Je besser man die Störgeräusche herausfiltern kann, desto eher findet man das echte Signal.
Diese Methode bedeutet, dass zukünftige Experimente (wie LEGEND-1000) schneller und effizienter arbeiten können, weil sie weniger manuelle Arbeit für das Trainieren der KI benötigen und trotzdem bessere Ergebnisse liefern.

Zusammenfassend: Die Autoren haben eine KI entwickelt, die ganze Wellenformen liest statt nur Zusammenfassungen zu machen, und sie hat gelernt, indem sie fehlende Teile von Wellen erraten hat. Das macht die Suche nach den seltensten Ereignissen im Universum viel präziser und schneller.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers auf Deutsch:

Titel: Transformer-basierte Impulsform-Diskriminierung in HPGe-Detektoren mit Masked-Autoencoder-Vorab-Training

1. Problemstellung

In der Suche nach seltenen Ereignissen, wie dem neutrinolosen doppelten Betazerfall ($0\nu\beta\beta$), spielen hochreine Germanium-Detektoren (HPGe) eine zentrale Rolle. Ein kritischer Schritt zur Unterdrückung von Hintergrundereignissen ist die Impulsform-Diskriminierung (Pulse-Shape Discrimination, PSD).

Herausforderung: Herkömmliche PSD-Ansätze komprimieren die vollständigen digitalisierten Wellenformen in eine kleine Menge manueller Zusammenfassungsparameter (z. B. Amplitudenverhältnisse, Anstiegszeiten). Dabei geht potenziell relevante Information aus der gesamten Zeitreihe verloren.
Datenlage: Das Training von überwachtem Machine Learning (ML) wird durch den Mangel an ereignisweisen Topologie-Labels erschwert. Stattdessen werden oft Simulationen oder kalibrierungsdefinierte Proxy-Labels verwendet, die verrauscht sein können. Unbeschriftete Kalibrierungsdaten sind jedoch in großen Mengen verfügbar.
Ziel: Entwicklung von Modellen, die direkt auf den digitalen Wellenformen operieren, um die Informationsdichte besser zu nutzen und die Abhängigkeit von manuell konstruierten Merkmalen sowie von großen Mengen an gelabelten Daten zu reduzieren.

2. Methodik

Die Autoren vergleichen verschiedene Ansätze unter Verwendung des Datensatzes des Majorana Demonstrator (MJD), der Wellenformen von 26 verschiedenen HPGe-Detektoren enthält.

A. Transformer-Architektur (Detector-Conditioned)

Eingabe: Rohdaten bestehen aus 3.800 Abtastwerten pro Ereignis (digitale Ladungsimpulse). Zusätzlich wird der erste Gradient (zeitliche Ableitung) als Strom-Proxy berechnet.
Vorverarbeitung: Die Sequenz wird in nicht-überlappende Fenster von $W=10$ Schritten unterteilt ( $L=380$ Segmente).
Modell: Ein Transformer-Encoder mit 6 Layern, 8 Attention-Köpfen und einer Embedding-Dimension von 64.
- Detector-Conditioning: Da jeder Detektor aufgrund von Geometrie und Betriebsbedingungen unterschiedliche Impulsformen aufweist, wird das Modell durch Feature-wise Linear Modulation (FiLM) detektorspezifisch angepasst. Jeder der 26 Detektoren erhält ein gelerntes Embedding, das Skalierungs- und Verschiebungsparameter ( $\gamma, \beta$ ) für die Token-Embeddings generiert.
- Positional Encodings: Sinusförmige Positionscodierung bewahrt die zeitliche Reihenfolge.
Ausgabe: Globales Average Pooling über die gesamte Sequenz führt zu einer ereignisweisen Repräsentation, die in vier binäre Klassifikationsköpfe (für die PSD-Labels) und einen Regressionskopf (für die Energie) mündet.

B. Trainingsstrategien

Supervised Training from Scratch: Direktes Training auf gelabelten Daten.
Masked Autoencoder (MAE) Pre-training: Ein zweistufiger Ansatz.
- Phase 1 (Self-Supervised): Das Modell lernt auf ungelabelten Daten, indem 50% der Zeitfenster maskiert und rekonstruiert werden. Dies zwingt den Encoder, allgemeine Strukturen (Ladungssammelzeiten, Rauschverhalten) zu lernen.
- Phase 2 (Fine-Tuning): Der Encoder wird auf gelabelten Daten für die spezifischen PSD- und Energietasks feinabgestimmt.

C. Baseline
Ein Gradient-Boosted Decision Tree (GBDT) wird als Referenz implementiert. Dieser verwendet 12 handgefertigte geometrische Merkmale (z. B. maximale Ladung, Puls-zu-Schwanz-Verhältnis, Anstiegszeiten) statt der Rohdaten.

3. Wichtige Beiträge

Architektur: Entwicklung eines detector-geconditioneten Transformers, der direkt auf Rohdaten und deren Gradienten operiert, ohne manuelle Merkmalskompression.
Sample Efficiency: Nachweis, dass MAE-Vorab-Training auf ungelabelten Daten die Effizienz des Lernens drastisch verbessert.
Benchmarking: Umfassender Vergleich mit einem starken GBDT-Baseline-Modell und Analyse des Einflusses der Trainingsdatenmenge.
Öffentliche Verfügbarkeit: Der vollständige Code und die Trainingspipeline sind öffentlich zugänglich.

4. Ergebnisse

A. PSD-Klassifikation

Leistung: Transformer-Modelle übertreffen den GBDT-Baseline in allen vier PSD-Zielen (DCR, High/Low AvsE, LQ) konsistent.
Metriken:
- AUROC: Der feinabgestimmte Transformer erreicht bei der kombinierten "PSD-Pass"-Definition (alle vier Kriterien erfüllt) eine AUROC von 0,9918, verglichen mit 0,9598 beim GBDT.
- F1-Score: Steigerung von 0,8733 (GBDT) auf 0,9415 (feinabgestimmter Transformer).
- Die größten Verbesserungen zeigen sich bei den schwierigsten Labels (LQ und DCR).
Vergleich Scratch vs. Fine-Tuning: Das Fine-Tuning nach MAE-Pre-training liefert konsistent bessere Ergebnisse als das Training von Grund auf, insbesondere bei schwierigen Klassifikationen (z. B. +4,2% AUROC-Verbesserung bei DCR).

B. Sample Efficiency (Datenbedarf)

MAE-Pre-training reduziert den Bedarf an gelabelten Daten um den Faktor 2–4 in Regimen mit wenig Daten.
Beispiel: Ein feinabgestimmtes Modell mit nur 65.000 gelabelten Wellenformen erreicht eine Leistung, die einem Scratch-Modell mit 260.000 Wellenformen entspricht. Dies ist besonders relevant für Experimente, bei denen große gelabelte Datensätze noch nicht verfügbar sind.

C. Energie-Rekonstruktion

Beide Transformer-Varianten zeigen eine leichte systematische Unterschätzung der Energie (ca. 0,8%).
Das Fine-Tuning führt zu einer etwas engeren Verteilung der Residuen ( $\sigma = 0,0407$ vs. $0,0424$ beim Scratch-Training), was eine bessere Übereinstimmung mit den kalibrierten Energielabels bedeutet.

D. Rekonstruktionsanalyse (Appendix)

Die MAE-Modelle rekonstruieren maskierte Wellenformsegmente mit hoher Genauigkeit (MSE $\approx 10^{-4}$ ).
Die Rekonstruktionsqualität ist für "PSD-Pass" und "PSD-Fail" Ereignisse ähnlich hoch, was bestätigt, dass das Modell allgemeine Detektorantworten lernt und nicht nur spezifische Muster auswendig lernt.

5. Bedeutung und Ausblick

Für $0\nu\beta\beta$-Suchen: Die Ergebnisse motivieren den Einsatz von end-to-end Transformer-Modellen für die LEGEND-200 und zukünftige LEGEND-1000 Experimente. Die verbesserte Unterdrückung von Hintergrundereignissen bei gleichzeitig hoher Signal-Effizienz ist entscheidend für die Sensitivität.
Allgemeine Relevanz: Die Methode ist auf andere HPGe-Experimente und Detektortechnologien übertragbar, bei denen Hintergrundunterdrückung kritisch ist.
Nächste Schritte: Zukünftige Arbeiten müssen die Robustheit über verschiedene Detektoren und Betriebsbedingungen testen sowie die Auswirkungen auf die Halbwertszeit-Sensitivität in der Region des $Q_{\beta\beta}$ quantifizieren.

Fazit: Die Studie demonstriert erfolgreich, dass Transformer-Architekturen in Kombination mit selbstüberwachtem Vorab-Training (MAE) die Leistungsgrenzen herkömmlicher, merkmalsbasierter Methoden in der HPGe-Impulsform-Diskriminierung überschreiten und dabei deutlich effizienter mit gelabelten Daten umgehen.

Transformer-Based Pulse Shape Discrimination in HPGe Detectors with Masked Autoencoder Pre-training

Das alte Problem: Der Zusammenfassungszettel

Die neue Lösung: Der KI-Leser (Transformer)

Der Trick: Lernen ohne Lehrer (Masked Autoencoder)

Was haben sie herausgefunden?

Warum ist das wichtig?

Titel: Transformer-basierte Impulsform-Diskriminierung in HPGe-Detektoren mit Masked-Autoencoder-Vorab-Training

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Quark-diquark effective mass formalism for heavy baryon spectroscopy

Synchrotron radiation leveling at future circular hadron colliders

Precision measurement of neutrino oscillation parameters with 10 years of data from the NOvA experiment

Reconstruction of the Effective Energy-deposition Vertex of Muon Showers using PMT Waveform in a Large-scale Liquid Scintillator Detector

A brief history of Timing