Transformer-Based Pulse Shape Discrimination in HPGe Detectors with Masked Autoencoder Pre-training

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이 연구가 필요한가요?

상황: 과학자들은 우주의 아주 희귀한 사건을 포착하려고 합니다. 하지만 배경 잡음 (방사선 등) 이 너무 많아서 진짜 신호를 찾기 어렵습니다.
문제: 기존에는 검출기가 받은 신호 (파형) 를 분석할 때, 전문가들이 "이건 중요해, 저건 중요하지 않아"라고 정해둔 **몇 가지 숫자 (지표)**만 뽑아내서 판단했습니다.
- 비유: 마치 긴 영화를 보고 "주인공이 웃었는지, 울었는지"만 체크하고 나머지 모든 대사, 배경음, 표정 변화를 다 버리는 것과 같습니다. 중요한 정보가 많이 사라질 수 있습니다.
목표: 이제 AI(특히 트랜스포머라는 최신 모델) 를 써서 파형 전체를 그대로 보고 판단하게 하려고 합니다.

2. 핵심 기술: 두 가지 혁신적인 방법

이 논문은 AI 를 가르치는 두 가지 새로운 방법을 비교했습니다.

① "직접 배우기" (Supervised Training) vs "미리 공부하기" (MAE Pre-training)

기존 방식 (Scratch): AI 에게 "이건 신호, 저건 잡음"이라고 라벨이 붙은 데이터만 주고 처음부터 가르칩니다.
- 비유: 영어 공부를 할 때, 문법책도 안 보고 바로 원어민과 대화하면서 실수만 반복하며 배우는 것입니다.
새로운 방식 (MAE - 마스킹 오토인코더):
- 단계 1 (미리 공부): 라벨이 붙지 않은 방대한 양의 '잡음' 데이터만 줍니다. AI 가 데이터의 일부 (예: 파형의 50%) 를 가리고, **"가려진 부분을 추측해서 채워 넣으라"**는 과제를 줍니다.
  - 비유: 책의 일부 페이지를 가리고, 남은 내용만 보고 가려진 페이지의 내용을 유추해 쓰게 하는 것입니다. 이 과정을 통해 AI 는 언어의 구조 (파형의 패턴, 잡음의 성질) 를 자연스럽게 익힙니다.
- 단계 2 (실전 훈련): 이제 라벨이 붙은 소량의 데이터만 주어 "이건 신호, 저건 잡음"이라고 가르칩니다.
  - 효과: 이미 파형의 구조를 잘 알고 있는 상태라, 적은 데이터로도 훨씬 빠르고 정확하게 배웁니다. (데이터가 부족할 때 효과가 2~4 배나 큽니다!)

② "손으로 만든 도구" (GBDT) vs "스스로 배우는 두뇌" (Transformer)

기존 (GBDT): 과학자들이 직접 "이런 특징이 있으면 잡음이다"라고 규칙을 만들어 AI 에게 주입합니다.
- 비유: 요리사가 "소금이 10g 이상이면 짜다"라고 정해둔 레시피대로만 요리를 하는 로봇입니다.
새로운 (Transformer): AI 가 파형 전체를 보고 스스로 "어, 이 모양은 신호 같네"라고 패턴을 찾아냅니다.
- 비유: 수많은 요리를 맛본 후, 스스로 "이건 소금기 때문이 아니라 고기 질 때문이네"라고 깨닫는 천재 셰프입니다.

3. 연구 결과: 무엇이 달라졌나요?

정확도 대박: AI 가 직접 파형 전체를 보는 방식이, 과학자가 만든 규칙 (GBDT) 보다 훨씬 정확하게 잡음과 신호를 구분했습니다. 특히 가장 구분이 어려운 복잡한 신호에서 차이가 컸습니다.
데이터 절약: '미리 공부하기 (MAE)' 방식을 쓰면, 라벨이 붙은 데이터를 2~4 배나 줄여도 같은 성능을 냈습니다. 이는 실험 비용과 시간을 크게 아껴줍니다.
에너지 측정: 신호의 세기 (에너지) 를 재는 것도 조금 더 정밀해졌습니다.

4. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"데이터가 부족하거나, 복잡한 신호를 다뤄야 할 때, AI 에게 먼저 '기본기'를 익히게 한 뒤 실전에 투입하는 것"**이 얼마나 효과적인지 증명했습니다.

미래 전망: 이 기술은 현재 진행 중인 'LEGEND-200' 실험과 앞으로의 'LEGEND-1000' 실험에 바로 적용될 수 있습니다.
의미: 우주의 가장 깊은 비밀 (중성미자의 성질) 을 풀기 위해, 우리는 더 적은 데이터로도 더 똑똑한 AI 를 만들어낼 수 있게 되었습니다. 마치 어린아이에게 먼저 세상을 관찰하게 한 뒤, 전문가 교육을 시키는 것처럼 말이죠.

한 줄 요약:
"기존의 손으로 만든 규칙보다, AI 가 파형 전체를 보고 스스로 배우는 방식이 훨씬 정확하며, 특히 '미리 공부 (Pre-training)'를 시키면 적은 데이터로도 최고의 성능을 낼 수 있다!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 고순도 게르마늄 (HPGe) 검출기는 중성미자 없는 이중 베타 붕괴 ($0\nu\beta\beta $) 와 같은 희귀 사건 탐색에 핵심적인 기술입니다. 특히$ ^{76}\text{Ge}$ 동위원소가 풍부한 검출기는 높은 에너지 분해능과 낮은 배경 잡음을 제공합니다.
문제점:
- 기존 펄스 형태 판별 (PSD, Pulse-Shape Discrimination) 기법은 파형의 전체 시간 계열 정보를 활용하지 않고, 물리적으로 유도된 소수의 요약 파라미터 (예: 최대 진폭, 상승 시간 등) 로 압축하여 사용합니다. 이 과정에서 분류에 중요한 정보가 손실될 수 있습니다.
- 기존 지도 학습 (Supervised Learning) 은 사건별 토폴로지 라벨이 부족하여 시뮬레이션이나 분석 정의된 프록시 (proxy) 라벨에 의존해야 하며, 이는 라벨 노이즈나 도메인 불일치를 초래할 수 있습니다.
- 라벨이 붙은 데이터는 제한적이지만, 라벨이 없는 보정 (calibration) 데이터는 방대하게 존재합니다.
목표: 디지털화된 파형 (waveform) 을 직접 입력으로 받아 처리하는 엔드 - 투 - 엔드 (end-to-end) 딥러닝 모델을 개발하여, 기존 특징 기반 (feature-based) 방법보다 우수한 성능을 내고, 라벨이 적은 환경에서도 효율적으로 학습할 수 있는지를 검증하는 것입니다.

2. 방법론 (Methodology)

2.1 모델 아키텍처: 검출기 조건부 Transformer

입력 표현: 원시 파형 (3,800 샘플) 과 이를 유한 차분으로 계산한 1 차 미분 (전류 추정치) 을 동시에 입력으로 사용합니다.
시퀀스 처리: 3,800 개의 시간 단계를 10 개씩 겹치지 않는 윈도우로 나누어 총 380 개의 시퀀스로 변환합니다. 각 윈도우는 100ns 의 검출기 활동을 나타냅니다.
검출기 조건부 (Detector-Conditioned): 26 개의 서로 다른 검출기는 기하학적 구조와 불순물 프로파일 차이로 인해 서로 다른 펄스 형태를 가집니다. 이를 해결하기 위해 FiLM (Feature-wise Linear Modulation) 기법을 사용하여 각 검출기 ID 에 해당하는 학습 가능한 임베딩을 통해 모델의 입력 표현을 스케일링 및 시프트하여 조정합니다.
아키텍처: 6 개의 인코더 레이어, 8 개의 어텐션 헤드를 가진 Transformer Encoder 를 사용합니다. 위치 인코딩 (Positional Encoding) 을 추가하여 시간적 순서를 보존합니다.

2.2 학습 전략 비교

Scratch (지도 학습): 라벨이 있는 데이터만으로 처음부터 학습.
MAE Pre-training + Fine-tuning (자기지도 학습):
- Pre-training: 라벨이 없는 보정 파형의 50% 를 마스킹 (Masked) 하고, 나머지 가시적인 부분으로 마스킹된 부분을 재구성하는 마스킹 오토인코더 (MAE) 방식으로 학습합니다. 이 과정에서 모델은 파형의 일반적인 구조 (전하 수집 시간, 노이즈 특성 등) 를 학습합니다.
- Fine-tuning: 사전 학습된 인코더 가중치를 초기값으로 사용하여, 라벨이 있는 데이터로 PSD 분류 및 에너지 회귀 작업을 수행합니다.

2.3 비교 대상 (Baseline)

GBDT (Gradient-Boosted Decision Tree): 수작업으로 설계된 12 가지 기하학적 특징 (최대 전하, 전류, 저크, 타이밍 등) 을 입력으로 사용하는 전통적인 머신러닝 모델을 기준으로 설정했습니다.

2.4 작업 (Tasks)

PSD 분류: Majorana Demonstrator (MJD) 데이터셋의 4 가지 이진 라벨 (Low-side AvsE, High-side AvsE, DCR, LQ) 에 대한 분류.
에너지 회귀: 보정된 에너지 값을 예측.

3. 주요 기여 (Key Contributions)

엔드 - 투 - 엔드 파형 모델링: 수작업 특징 추출을 거치지 않고 디지털 전하 파형과 그 기울기를 직접 처리하는 검출기 조건부 Transformer 아키텍처를 개발했습니다.
샘플 효율성 향상: 라벨이 없는 파형으로 MAE 사전 학습을 수행함으로써, 하류 작업 (Downstream tasks) 에서 필요한 라벨 데이터의 양을 2~4 배까지 줄일 수 있음을 입증했습니다.
성능 우위 입증: 모든 PSD 목표 (특히 가장 어려운 DCR 및 LQ, 그리고 결합된 PSD-pass 정의) 에서 GBDT 기반의 기존 방법보다 Transformer 모델이 우수한 성능을 보였습니다.
에너지 회귀 개선: 사전 학습된 인코더를 미세 조정 (Fine-tuning) 하는 것이 처음부터 학습하는 것보다 에너지 잔차 분포를 약간 더 좁게 만들어 정확도를 향상시켰습니다.

4. 결과 (Results)

4.1 PSD 분류 성능

GBDT 대비 우위: 모든 PSD 라벨에서 Transformer 모델이 GBDT 보다 높은 AUROC 와 F1 점수를 기록했습니다.
- 가장 큰 개선: 가장 까다로운 라벨인 LQ (Late Charge) 와 Low AvsE에서 GBDT 대비 가장 큰 성능 향상을 보였습니다. (예: LQ 의 경우 AUROC 가 GBDT 0.924 에서 Fine-tuned Transformer 0.993 으로 향상).
- 결합된 PSD-pass: 모든 4 가지 기준을 동시에 통과하는 사건에 대한 분류에서 Fine-tuned 모델은 GBDT 대비 AUROC 0.9598 → 0.9918, F1 점수 0.8733 → 0.9415 로 크게 개선되었습니다.
사전 학습의 효과:
- 저데이터/저에포크 환경: 데이터가 적을 때 (예: 65k 파형, 2 에포크) 사전 학습을 적용한 모델은 처음부터 학습한 모델보다 AUROC 가 압도적으로 높았습니다 (예: Low AvsE 0.660 → 0.880).
- 데이터 효율성: 사전 학습을 통해 적은 라벨 데이터로만 학습한 모델이, 많은 라벨 데이터로 처음부터 학습한 모델과 유사한 성능을 달성할 수 있었습니다.

4.2 에너지 재구성

두 학습 전략 모두 약 0.8% 수준의 에너지 과소평가 (underestimation) 경향을 보였으나, Fine-tuned 모델이 Scratch 모델보다 잔차 분포의 표준편차 ( $\sigma$ ) 가 더 작아 (0.0407 vs 0.0424) 에너지 예측이 더 정밀했습니다.

4.3 재구성 분석 (Appendix)

MAE 모델은 마스킹된 파형 구간을 높은 정확도로 재구성할 수 있었으며, 이는 모델이 검출기의 일반적인 물리 특성 (전하 수집 동역학 등) 을 잘 학습했음을 의미합니다.

5. 의의 및 결론 (Significance & Conclusion)

실험 물리학 적용: 이 연구는 희귀 사건 탐색 실험 (LEGEND-200, LEGEND-1000 등) 에서 라벨 데이터가 부족한 상황에서도 고도의 성능을 내기 위해 자기지도 학습 (Self-supervised Learning) 을 활용할 수 있음을 보여줍니다.
배경 제거 최적화: 기존 분석 방법보다 더 정교한 배경 제거 (Background Rejection) 가 가능해져, 중성미자 없는 이중 베타 붕괴 탐색의 민감도를 높일 수 있는 잠재력을 가집니다.
확장성: 이 접근법은 HPGe 검출기뿐만 아니라 다른 검출기 기술과 파형 분석이 필요한 다양한 물리 실험에도 적용 가능한 범용적인 방법론으로 제시됩니다.

요약하자면, 이 논문은 Transformer 기반의 엔드 - 투 - 엔드 학습과 MAE 사전 학습을 결합하여 HPGe 검출기의 펄스 형태 판별 성능을 획기적으로 향상시키고, 라벨 데이터 의존도를 낮추는 새로운 패러다임을 제시했습니다.