Each language version is independently generated for its own context, not a direct translation.

🏃‍♂️ 1. 문제: 거인들은 왜 제각각 달리나요?

지금까지 AI 모델을 키울 때는 마치 각기 다른 체격과 신발을 신은 마라토너를 훈련시키는 것과 같았습니다.

작은 모델 (100M 파라미터) 은 100m 달리기 선수처럼 빠르게 시작하지만, 금방 지칩니다.
큰 모델 (100B 파라미터) 은 마라토너처럼 천천히 시작하지만, 오래갑니다.

문제는 모델 크기를 바꿀 때마다 "얼마나 많은 데이터를 먹여야 하고, 얼마나 빨리 뛰게 해야 할지 (학습률)"를 매번 새로 맞춰야 했다는 점입니다. 마치 100m 선수용 신발을 100km 마라토너에게 신겨서 실패하는 꼴이었죠. 그래서 거대 모델을 훈련시킬 때 "왜 갑자기 성능이 떨어질까?", "언제 멈춰야 할까?"를 알 수 없어 막막했습니다.

🎯 2. 해결책: "보편적인 훈련 지도" (Collapse)

이 논문은 **"조건만 잘 맞추면, 모든 크기의 모델이 같은 지도를 따라 똑같은 패턴으로 달린다"**는 것을 발견했습니다. 이를 **'붕괴 (Collapse)'**라고 부릅니다.

비유: 레고 조립

과거: 작은 레고 (소형 모델) 조립할 때와 거대한 성 (대형 모델) 조립할 때, 조립 순서와 속도를 완전히 다르게 설정해야 해서 지도가 달랐습니다.
이제: **세 가지 핵심 설정 (데이터 양, 최적화 속도, 학습 계획)**을 정확히 맞춰주면, 작은 레고와 거대한 성이 **완전히 동일한 조립 속도표 (훈련 곡선)**를 따릅니다.
- 작은 모델이 10% 조립했을 때의 상태와, 큰 모델이 10% 조립했을 때의 상태가 비율상 완전히 일치하게 됩니다.

이제 우리는 작은 모델로 실험만 해봐도, 거대 모델이 어떻게 될지 100% 예측할 수 있게 된 것입니다!

🔍 3. 세 가지 핵심 열쇠 (TPP, τ, LR)

이 '보편적인 지도'가 작동하려면 세 가지 나사를 정확히 조여야 합니다.

TPP (토큰당 파라미터 비율): "모델 한 조각당 얼마나 많은 책을 읽게 할 것인가?"
- 비유: 학생 한 명당 배정된 교과서 분량입니다. 이 비율을 모든 모델 크기에 맞춰주면, 학습 속도가 일정해집니다.
τ (타이밍 스케일): "과거의 실수를 얼마나 오래 기억할 것인가?"
- 비유: 운전할 때 뒤차의 움직임을 얼마나 오래 기억하며 운전하느냐입니다. 너무 짧게 기억하면 급하게 차를 바꾸고, 너무 길게 기억하면 반응이 느립니다. 이 '기억 시간'을 데이터 양에 맞춰 조절해야 합니다.
학습률 스케줄 (LR): "얼마나 빠르게 속도를 줄여야 할까?"
- 비유: 출발할 때는 빠르게 달리다가, 목적지에 가까워질수록 부드럽게 브레이크를 밟는 속도 조절입니다.

이 세 가지를 **'Celerity(셀러리티)'**라는 새로운 모델 가족에 적용했더니, 작은 모델과 큰 모델의 훈련 곡선이 완벽하게 겹쳐졌습니다.

🚨 4. 실용적 효과: "초고속 진단과 조기 종료"

이 기술이 왜 혁명적인가요? 두 가지 큰 이점이 있습니다.

① 조기 경보 시스템 (Early Warning)

상황: 거대 모델을 훈련 중인데 갑자기 성능이 떨어지면 (Loss Spike), "아, 뭔가 고장 났나?"라고 알 수 있지만, 언제부터 고장 났는지는 알기 어렵습니다.
해결: "보편적인 지도"가 있다면, 작은 모델의 정상적인 궤적과 비교할 수 있습니다.
- 비유: "저기 100m 달리는 친구가 50m 지점에서 넘어졌는데, 100km 달리는 친구도 50km 지점에서 똑같이 넘어졌네? 아, 50km 지점에서 무언가 잘못됐구나!"
- 실제로 이 방법을 써서 훈련이 끝날 90% 전에 이미 60% 시점의 오류를 찾아내서 고쳤습니다.

② 조기 종료 (Early Stopping) 로 비용 절감

상황: "어떤 학습률 (Hyperparameter) 이 가장 좋은지" 찾기 위해 거대 모델을 100% 훈련시키는 건 돈이 너무 많이 듭니다.
해결: 작은 모델로 10~30% 만 훈련해보고, 그 곡선을 '보편적인 지도'에 대입하면 최종 결과가 어떻게 될지 예측할 수 있습니다.
- 비유: 100km 마라톤을 다 뛰지 않고, 30km 지점의 기록만 봐도 "이 선수는 100km 에서 3 시간 30 분에 들어올 것"이라고 정확히 예측할 수 있다면, 불필요한 훈련 시간을 아낄 수 있습니다.
- 결과적으로 훈련 비용 (컴퓨팅 자원) 을 70~90% 절감하면서도 최적의 설정을 찾을 수 있습니다.

🏆 5. 결론: Celerity 의 등장

이론을 증명하기 위해 연구팀은 **'Celerity'**라는 새로운 AI 모델 가족을 만들었습니다.

이 모델들은 작은 모델로 실험한 결과를 그대로 큰 모델에 적용했습니다.
그 결과, 최소 비용으로 최고의 성능을 내는 '효율의 최전선'에 도달했습니다.
더 이상 거대 모델을 훈련시킬 때 "눈감고 화살을 쏘는" 방식이 아니라, 작은 표적에서 연습한 뒤 큰 표적을 정확히 맞추는 방식이 가능해진 것입니다.

한 줄 요약:

"AI 모델을 키울 때, 작은 모델로 실험한 결과를 큰 모델에 그대로 복사할 수 있는 '보편적인 훈련 법칙'을 발견했습니다. 이제 거대 AI 훈련은 예측 가능하고, 저렴하며, 오류를 미리 잡을 수 있는 안전한 과정이 되었습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Scaling with Collapse (붕괴를 통한 확장)

이 논문은 대규모 언어 모델 (LLM) 의 학습 과정에서 손실 곡선 (Training Loss Curves, TLCs) 이 특정 정규화 조건 하에서 모델 크기에 관계없이 하나의 보편적인 궤적으로 '붕괴 (Collapse)'된다는 현상을 발견하고, 이를 효율적이고 예측 가능한 LLM 학습을 위한 핵심 도구로 활용하는 방법을 제시합니다.

1. 문제 정의 (Problem)

LLM 의 성능 향상은 주로 모델과 데이터셋의 규모를 확장 (Scaling) 하는 것을 통해 이루어집니다. 그러나 최전선 (Frontier) 규모의 모델로 확장되면 직접적인 실험 비용이 너무 커져서 새로운 하이퍼파라미터 설정이나 아키텍처 변경을 테스트하기 어렵습니다.
기존 연구들 (예: Qiu et al., 2025) 은 소규모 모델이나 단순한 설정에서 학습 손실 곡선이 정규화 후 붕괴되는 현상을 보였으나, 실제 LLM 학습에 적용되는 복합적인 확장 레시피 (폭, 깊이, 배치 크기, 가중치 감소 등을 동시에 확장) 하에서 이 현상이 유지되는지, 그리고 이를 어떻게 실용적으로 활용할 수 있는지는 명확하지 않았습니다. 또한, 학습 중 발생하는 손실 급증 (Loss Spike) 이나 수렴 문제 등을 조기에 감지하고 진단하는 체계적인 방법론이 부족했습니다.

2. 방법론 (Methodology)

핵심 발견: 붕괴 (Collapse) 의 조건

저자들은 학습 손실 곡선이 모델 크기 ( $N$ ) 에 관계없이 하나의 보편적인 궤적으로 붕괴하기 위해서는 다음 세 가지 제어 인자가 모델 간에 일치해야 함을 규명했습니다.

토큰당 파라미터 비율 (TPP, Tokens-per-Parameter): 학습 토큰 수 ( $D$ ) 를 모델 파라미터 수 ( $N$ ) 로 나눈 값.
AdamW 타임스케일 ( $\tau$ ): 학습률 ( $\eta$ ), 가중치 감소 ( $\lambda$ ), 총 스텝 수 ( $T$ ) 에 의해 결정되는 최적화기의 메모리 길이 ( $\tau = 1/(\eta \lambda T)$ ). 이는 편향 (Bias) 과 분산 (Variance) 의 트레이드오프를 조절합니다.
학습률 스케줄 (LR Schedule): 학습 초기의 편향 감소와 후기의 분산 억제를 어떻게 조절하는지.

이 세 가지 인자가 고정되면, 최종 손실로 정규화된 학습 곡선 ( $\ell(\hat{t})$ ) 은 모델 크기에 상관없이 동일한 형태를 띠게 됩니다.

Celerity 모델 패밀리 개발

이러한 원리를 적용하여 Celerity라는 새로운 LLM 패밀리 (300M~3.9B 파라미터) 를 개발했습니다.

고정 TPP 전략: 계산 최적화 (Compute-optimal, TPP $\approx$ 20) 와 파라미터 효율성 (Parameter-efficiency, TPP $\approx$ 234) 사이의 균형을 맞추기 위해 TPP 를 234 로 고정했습니다.
최적 $\tau$ 설정: 각 TPP 에 대해 최적의 $\tau$ 를 설정하여 붕괴가 자연스럽게 발생하도록 했습니다.
CompleteP 파라미터화: 폭과 깊이에 대한 하이퍼파라미터 전이를 위해 CompleteP 를 사용하여 µP(Maximal Update Parameterization) 보다 효율적인 학습을 달성했습니다.

붕괴를 활용한 진단 및 조기 종료

학습 이상 감지 (Diagnostics): 실제 학습 곡선이 예측된 '붕괴 기준 곡선'에서 벗어나는 정도 (Residuals) 를 모니터링하여, 원시 손실 곡선에서 이상 징후가 나타나기 훨씬 전에 수치적 불안정성 (Numerical Instability) 등을 감지했습니다.
하이퍼파라미터 튜닝 조기 종료 (Early Stopping): 대규모 학습을 완료하지 않고도 (예: 10~30% 학습 시점), 소규모 모델에서 학습된 붕괴된 곡선 모델 (Surrogate model) 을 사용하여 최종 손실을 예측하고 최적의 하이퍼파라미터를 선별하는 프로세스를 제안했습니다.

3. 주요 결과 (Key Results)

손실 곡선 붕괴의 검증: Celerity 모델 패밀리 (300M~3.9B) 에서 고정된 TPP 와 최적의 $\tau$ 를 적용했을 때, 정규화된 학습 손실 곡선이 모델 크기에 관계없이 밀접하게 붕괴되는 것을 실험적으로 증명했습니다 (Fig. 1, Fig. 6).
계산 효율성 (Compute Efficiency): Celerity 모델은 공개된 모델들 중 동급의 계산 비용 (FLOPs) 대비 가장 높은 정확도를 보여주며, 계산 효율성 프론티어에 위치했습니다 (Fig. 2). 특히 BTLM 과 비교했을 때 유사한 정확도를 75% 적은 FLOPs 로 달성했습니다.
조기 진단 성공: 1.8B 모델 학습 중, 원시 손실 곡선에서는 90% 학습 시점에야 급증이 관찰되었으나, 붕괴 잔차 (Collapse Residuals) 분석을 통해 60% 학습 시점에 이미 문제가 발생했음을 조기에 발견하여 재시작 및 수정을 가능하게 했습니다 (Fig. 1, Fig. 6).
조기 종료 및 튜닝 효율성: 하이퍼파라미터 튜닝 실험에서, 학습의 10~30% 시점까지의 데이터를 사용하여 붕괴 모델을 통해 최종 손실을 예측한 결과, 실제 최적 설정을 높은 정확도로 선별할 수 있었습니다 (Fig. 9). 이는 튜닝에 필요한 계산 비용을 대폭 절감합니다.

4. 기여 및 의의 (Contributions & Significance)

이론적 통찰: LLM 학습에서 손실 곡선의 형태를 결정하는 핵심 인자가 TPP, $\tau$ , LR 스케줄임을 규명하고, 이들이 일치할 때 '붕괴'가 발생하여 계산 효율적이고 안정적인 학습의 지표가 됨을 증명했습니다.
실용적 도구 (Celerity): 붕괴 현상을 의도적으로 활용하여 설계된 첫 번째 대규모 LLM 패밀리인 Celerity 를 공개했습니다. 이는 오픈 소스 모델 개발에 새로운 기준을 제시합니다.
학습 모니터링 및 디버깅: 붕괴 잔차 (Deviation from collapse) 를 정량적인 지표로 사용하여 학습 중 발생하는 수치적 오류나 데이터 문제를 조기에 감지하고 수정하는 새로운 패러다임을 제시했습니다.
비용 절감: 대규모 하이퍼파라미터 튜닝 시 전체 학습을 수행하지 않고도 붕괴 모델을 통해 최종 성능을 예측하여 조기 종료 (Early Stopping) 할 수 있게 함으로써, 막대한 연산 비용을 절감할 수 있는 방법을 제시했습니다.

결론

이 논문은 LLM 학습이 단순히 규모를 키우는 것을 넘어, 예측 가능한 수학적 규칙 (붕괴) 을 따를 때 훨씬 더 효율적이고 안정적으로 진행될 수 있음을 보여줍니다. Celerity 와 같은 모델 패밀리는 이러한 원리를 실증하며, 붕괴 현상은 향후 대규모 모델 학습의 표준적인 모니터링 및 최적화 도구로 자리 잡을 것으로 기대됩니다.

Scaling with Collapse: Efficient and Predictable Training of LLM Families

🏃‍♂️ 1. 문제: 거인들은 왜 제각각 달리나요?

🎯 2. 해결책: "보편적인 훈련 지도" (Collapse)

🔍 3. 세 가지 핵심 열쇠 (TPP, τ, LR)

🚨 4. 실용적 효과: "초고속 진단과 조기 종료"

🏆 5. 결론: Celerity 의 등장

논문 요약: Scaling with Collapse (붕괴를 통한 확장)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

핵심 발견: 붕괴 (Collapse) 의 조건

Celerity 모델 패밀리 개발

붕괴를 활용한 진단 및 조기 종료

3. 주요 결과 (Key Results)

4. 기여 및 의의 (Contributions & Significance)

결론

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization