Neural Scaling Laws for Jet Generation

원저자: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

게시일 2026-05-29

📖 4 분 읽기🧠 심층 분석

보기: arXiv ↗PDF ↗

CC BY 4.0

원저자: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

"제트 생성에 대한 신경 확장 법칙"이라는 논문에 대한 설명을 일상적인 언어와 창의적인 비유로 번역한 것입니다.

큰 그림: 로봇에게 입자 충돌을 "꿈꾸게" 가르치기

로봇에게 그림을 그리게 하려고 상상해 보세요. 인공지능 (AI) 세계에는 **"확장 법칙 (Scaling Law)"**이라는 유명한 규칙이 있습니다. 이 규칙은 기본적으로 다음과 같습니다: 로봇에게 더 큰 뇌 (더 많은 매개변수) 나 더 많은 페인트 샘플 (더 많은 데이터), 혹은 그림을 그리는 데 더 많은 시간 (더 많은 컴퓨팅 파워) 을 주면, 로봇은 그림을 그리는 능력이 예측 가능하고 수학적인 방식으로 향상됩니다.

이 논문은 단순한 질문을 던집니다: 이 규칙이 입자 물리학에도 적용될까요?

구체적으로, 연구자들은 로봇이 현실적인 입자 제트 (jets) 를 "꿈꾸어 만들어내는" (생성하는) 능력을 훈련시킬 수 있는지 확인하고 싶어 했습니다. 입자 물리학에서 양성자가 서로 충돌하면 입자 구름인 제트가 분출됩니다. 이러한 제트는 messy(불규칙하고) 하며 혼란스럽고 양자 역학의 법칙을 따릅니다. 연구팀은 OmniJet-α라는 모델을 훈련시켜 이러한 제트의 패턴을 학습하게 한 후, 실제 제트와 똑같이 보이는 새로운 가짜 제트를 생성하도록 했습니다.

성공을 위한 세 가지 재료

연구자들은 자신의 이론을 검증하기 위해 요리사가 레시피를 조정하듯 세 가지 주요 재료를 조절했습니다:

모델 크기 (뇌): AI 의 "뇌"를 작은 "피코 (Pico)" 뇌에서 거대한 "XXL" 뇌까지 점점 더 크게 만들었습니다.
데이터셋 크기 (교과서): AI 에게 수백만 개에서 수억 개에 이르는 실제 제트 예시를 점점 더 많이 공급했습니다.
컴퓨팅 (시간/노력): AI 에게 데이터를 학습시키기 위해 다양한 양의 컴퓨팅 파워를 제공했습니다.

그들이 발견한 것: "쉬운" 부분과 "어려운" 부분

1. 뇌가 커집니다 (모델 크기) → 성공!

AI 의 뇌를 더 크게 만들었을 때, 그 업무 수행 능력이 눈에 띄게 향상되었습니다.

비유: 시험을 보는 학생을 상상해 보세요. 더 큰 뇌 (더 많은 지식) 를 주면, 시험 점수가 매끄럽고 예측 가능한 곡선을 그리며 상승합니다.
결과: 논문은 여기서 명확한 수학적 규칙을 발견했습니다. 더 큰 모델 = 더 나은 예측.
보너스: 그들은 AI 가 단순히 시험을 외운 것인지, 아니면 실제로 물리를 이해한 것인지 확인했습니다. 그들은 "가짜" 제트가 실제 물리 법칙과 얼마나 잘 일치하는지 측정했습니다 (Sliced Wasserstein Distance라는 도구를 사용했습니다). 그 결과, 시험 점수가 올라갈수록 물리학적 품질도 함께 상승했습니다. 수학과 물리학은 완벽하게 동기화되어 있었습니다.

2. 교과서가 커집니다 (데이터셋 크기) → 거의 변화 없음

AI 에게 더 많은 데이터를 공급했을 때, 개선 정도는 놀라울 정도로 작았습니다.

비유: 이미 백과사전 전체를 읽은 학생을 상상해 보세요. 만약 그 학생에게 또 다른 백과사전을 주더라도, 이미 기초를 완전히 마스터했기 때문에 더 이상 많이 배우지 못합니다.
결과: AI 는 매우 빠르게 "한계"에 도달한 것으로 보였습니다. 적은 양의 데이터로도 제트의 일반적인 모양에 대해 학습할 수 있는 거의 모든 것을 배웠습니다. 더 많은 데이터를 추가해도 도움이 되지 않았는데, 그 이유는 AI 가 이미 "쉬운" 것들을 모두 배웠기 때문입니다.

3. 더 많은 시간/노력 (컴퓨팅) → 평평한 선

AI 에게 학습을 위해 더 많은 컴퓨팅 파워를 주었을 때, 결과도 크게 향상되지 않았습니다.

비유: 10 분 만에 시험을 치르고 A 학점을 받은 학생을 상상해 보세요. 같은 시험을 치르는 데 10 시간을 준다면, 그 학생은 A+ 를 받지 못합니다. 그저 지루해할 뿐입니다.
결과: AI 는 너무 빠르게 학습해서 작은 모델조차 매우 빠르게 최대 잠재력에 도달했습니다. 더 많은 시간을 주어 학습하게 해도 그들이 더 똑똑해지지는 않았습니다.

비밀 소스: "학습 가능한 창 (Learnable Window)"

왜 AI 는 이렇게 빨리 학습을 멈추었을까요? 저자들은 **"학습 가능한 창"**이라는 교묘한 개념을 소개했습니다.

개념: 데이터의 총 정보를 큰 방이라고 생각하세요. 방의 일부는 명확하고 학습 가능한 패턴 ("창") 으로 채워져 있습니다. 방의 나머지는 순수한 혼란과 무작위성 (노이즈) 으로 채워져 있습니다.
발견: 언어 모델 (이 텍스트를 작성하는 모델과 같은) 에서는 "창"이 매우 큽니다. 언어에는 구조가 너무 많아서 더 큰 뇌는 오랫동안 새로운 패턴을 계속 찾아낼 수 있습니다.
반전: 입자 제트에서는 "창"이 매우 작습니다. 입자 물리학은 양자 역학에 의해 지배되기 때문에 본질적으로 **확률적 (stochastic, 무작위적)**입니다. AI 는 예측 가능한 모든 패턴을 빠르게 학습했고, 나머지 데이터는 어떤 뇌의 힘으로도 예측할 수 없는 무작위 노이즈일 뿐이었습니다.
은유: 폭풍우 속에서 단일 빗방울의 정확한 경로를 예측하려는 것과 같습니다. 폭풍의 일반적인 패턴 (바람, 구름) 은 학습할 수 있지만, 한 방울의 구체적인 경로는 무작위적입니다. AI 는 폭풍을 빠르게 학습했지만, 뇌가 아무리 커져도 빗방울의 무작위성은 학습할 수 없었습니다.

결론

이 논문은 입자 물리학에도 신경 확장 법칙이 존재함을 최초로 보여주지만, 언어에서의 경우와는 다르게 행동한다고 밝힙니다.

좋은 소식: 더 큰 모델은 작동하며 물리학에 대해 더 나아집니다.
주의점: 데이터가 본질적으로 무작위적이기 때문에 AI 는 매우 빠르게 벽에 부딪힙니다. 무한한 개선 효과를 얻기 위해 무한한 돈과 데이터를 문제에만 던질 수는 없습니다. 우주의 "무작위성"이 AI 가 얼마나 잘 예측할 수 있는지에 대한 엄격한 한계를 설정합니다.

간단히 말해: AI 는 뛰어난 학생이지만, 학습 대상 (양자 물리학) 이 너무 혼란스러워서 가장 똑똑한 학생조차 추측하기 시작하기 전에 배울 수 있는 것에는 한계가 있습니다.

기술 요약: 제트 생성을 위한 신경 확장 법칙

문제 제기
모델 성능과 데이터셋 크기, 계산량, 모델 파라미터 간의 멱법칙 관계를 설명하는 신경 확장 법칙은 대규모 언어 모델 (LLM) 을 중심으로 현대 인공지능의 핵심이 되었습니다. 그러나 고에너지 물리학 (HEP) 에 대한 적용 가능성은 여전히 열린 질문으로 남아 있습니다. 충돌기 데이터는 자연어 및 시각 데이터와 질적으로 다릅니다. 양자장론 (QCD 복사) 의 특성상 매우 확률적이지만 물리적 역학에 의해 제약받기 때문입니다. 또한, 확장 법칙이 지도 학습 제트 분류 작업에서 관찰되었으나, 입자 제트를 위한 생성 모델링에서의 거동은 덜 이해되고 있습니다. 본 연구는 파운데이션 모델을 사용하여 입자 제트를 생성하는 작업에서 경험적 확장 법칙이 성립하는지, 그리고 다음 토큰 예측과 같은 학습 목표의 개선이 물리적으로 의미 있는 관측량의 개선으로 이어지는지 조사합니다.

방법론
본 연구는 다음 토큰 예측 (NTP) 을 통해 토큰화된 제트 구성 요소를 학습한 오토레귀시브 GPT 스타일 트랜스포머인 OmniJet-α를 활용합니다. 모델은 Vector Quantized Variational Autoencoder(VQ-VAE, 코드북 크기 32,768) 를 사용하여 제트 구성 요소 (횡방향 운동량 $p_T$ 및 상대 각도와 같은 운동학적 특징) 를 정수 토큰으로 변환합니다.

연구는 CMS 오픈 데이터에서 파생된 약 1.8 억 개의 재구성된 양성자 - 양성자 충돌 제트를 포함하는 Aspen Open Jets(AOJ) 데이터셋을 기반으로 수행됩니다. 이는 몬테카를로 시뮬레이션이 아닌 실험적으로 기록된 충돌기 데이터에 대한 신경 확장 법칙의 첫 번째 조사입니다.

연구는 다음 세 가지 측면에 대한 확장을 분석하기 위해 세 단계로 나뉩니다:

모델 크기 ( $N$ ): 데이터셋 크기와 계산 예산을 고정하면서 비임베딩 파라미터를 25k 에서 8500 만까지 변화시킵니다.
데이터셋 크기 ( $D$ ): 고정된 모델 아키텍처 하에 고유한 학습 토큰 수를 $6.4 \times 10^6$ 에서 $8.1 \times 10^9$ 까지 변화시킵니다.
계산량 ( $C$ ): 고정된 계산 예산에 대해 모델 크기와 학습 단계를 변화시켜 계산 최적 확장 (compute-optimal scaling) 을 식별하는 isoFLOP 분석을 수행합니다.

두 가지 주요 지표를 평가합니다:

NTP 검증 손실: 다음 토큰 예측 작업에 대한 표준 교차 엔트로피 손실입니다.
슬라이스된 워서스타인 거리 (SWD): 모델이 학습 중에 직접 접근하지 못했던 5 가지 고수준 제트 관측량 ( $p_T$ , 질량 $m$ , $\tau_{21}$ , $\tau_{32}$ , 구성 요소 수 $n$ ) 에 대해 계산된 통계적 지표입니다. 이는 물리 공간에서 생성된 제트의 품질을 측정합니다.

저자들은 "학습 가능한 창 (learnable window, $W$ )" 개념을 도입했는데, 이는 균일 예측기 ( $\log V$ ) 의 손실과 데이터셋의 비감소 엔트로피 바닥 ( $H(p)$ , 점근적 손실 $L_\infty$ 로 추정됨) 사이의 차이로 정의됩니다. 이 지표는 총 손실 범위 중 학습 가능한 부분과 본질적 확률성의 비율을 정량화합니다.

주요 결과

모델 크기 확장: 연구는 모델 크기의 함수로서 NTP 검증 손실에 대해 명확한 멱법칙 확장 행동 ( $L(N) \propto N^{-\beta_N} + L_\infty$ ) 을 확인합니다. 확장 지수 $\beta_N$ 은 약 0.43 입니다. 중요한 점은 SWD 지표가 NTP 손실과 단조 상관관계를 보인다는 것으로, 이는 학습 목표의 개선이 물리 관측량 모델링의 개선으로 직접 이어짐을 의미합니다. SWD 값은 실제 데이터의 유한 표본 비교와 관련된 본질적 통계적 바닥에 접근합니다.
데이터셋 및 계산 확장: 데이터셋 크기와 계산량에 따른 확장은 훨씬 더 약한 신호를 보입니다. 데이터가 멱법칙 해석과 양립할 수 있지만, 동적 범위가 작고 통계적 불확실성이 큽니다. 모델은 빠르게 포화되는 것으로 보입니다. 가장 작은 모델조차도 학습 가능한 구조의 vast majority(대다수) 를 포착합니다.
학습 가능한 창: 제트 생성에서 언어 모델링에 비해 학습 가능한 창이 작다는 것은 놀라운 발견입니다. OmniJet-α의 경우 학습 가능한 창 $W$ 는 약 3.2 nat 인 반면, 비교 가능한 언어 모델 연구에서는 약 8.7 nat 입니다. 결과적으로 유효한 퍼플렉시티 ( $e^{L_\infty}$ ) 는 1330 으로, 언어 모델에서 관찰된 약 5.4 보다 훨씬 높습니다. 이는 제트 분포의 지배적 구조가 상대적으로 modest(적은) 한 자원으로 학습되며, 나머지 손실은 감소 가능한 오차보다는 본질적 확률성에 의해 지배됨을 시사합니다.
IsoFLOP 곡선: isoFLOP 곡선 (고정된 계산량에 대한 모델 크기 대비 손실) 은 언어 모델에서 보이는 뚜렷한 "U 자형"과 명확한 왼쪽 팔이 결여되어 예외적으로 평평합니다. 이로 인해 계산 최적 모델 크기의 추출이 매우 불확실하지만, 포물선 적합은 모델 크기 대 계산량에 대한 최적 확장 지수 $a \approx 0.92$ 를 시사합니다.

의의 및 주장
본 논문은 실제 충돌기 데이터에 대한 제트 생성 모델의 신경 확장 법칙을 체계적으로 탐구한 첫 번째 연구라고 주장합니다. 주요 기여는 다음과 같습니다:

확장 법칙의 검증: 제트 생성에서 모델 크기에 대한 로그 확장 법칙이 존재하며, NTP 손실이 물리적 성능 (SWD) 에 대한 신뢰할 수 있는 대리 지표임을 입증합니다.
급속한 포화: 오토레귀시브 제트 생성이 언어 모델링보다 훨씬 빠르게 포화됨을 식별했습니다. 이는 QCD 복사의 확률적 특성과 데이터셋 내 "특징 없는" QCD 제트의 지배적 영향 때문일 가능성이 높습니다.
학습 가능한 창 개념: 학습 가능한 창을 도입함으로써 이 분야에서 확장 이득이 약한 이유를 설명하는 프레임워크를 제공합니다. 즉, 데이터 분포의 "학습 가능한" 부분이 총 엔트로피에 비해 작기 때문입니다.
도메인 특수성: HEP 의 확장 행동은 작업 구조에 민감함을 시사합니다. 지도 학습 제트 분류는 넓은 범위에서 지속적인 확장을 보이지만, 일반 QCD 제트의 생성 모델링은 초기에 포화에 도달합니다. 이는 언어에서 성공적인 사전 학습 전략이 입자 물리학, 특히 코드북 해상도와 구성 요소의 순서에 대해 도메인별 적응이 필요함을 의미합니다.

저자들은 확장 법칙이 존재하지만, 본 연구에서 관찰된 체감 수익과 급속한 포화는 입자 물리학 데이터에 대한 비지도 사전 학습의 고유한 도전을 강조한다고 결론지었습니다. 여기서 근본적인 물리는 높은 수준의 비감소 확률성을 부과합니다.