NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training

이 논문은 Muon 옵티마이저로 학습된 모델도 낮은 랭크 구조를 보인다는 발견을 바탕으로, 업데이트 방향에 핵노름 제약을 추가해 가중치 압축성을 높이고 압축 후 모델 품질을 개선하는 NuMuon 옵티마이저를 제안합니다.

Hadi Mohaghegh Dolatabadi, Thalaiyasingam Ajanthan, Sameera Ramasinghe, Chamin P Hewa Koneputugodage, Shamane Siriwardhana, Violetta Shevchenko, Karol Pajak, James Snewin, Gil Avraham, Alexander Long

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대한 인공지능 (LLM) 을 더 작고 가볍게 만들면서도, 그 지능을 잃지 않는 새로운 훈련 방법"**을 소개합니다.

비유를 들어 쉽게 설명해 드리겠습니다.

1. 문제: "무거운 짐을 들고 가는 것"

지금까지의 거대 언어 모델 (LLM) 은 마치 수천 권의 책을 모두 외운 천재와 같습니다. 하지만 이 천재는 기억력이 너무 좋아서, 모든 정보를 머릿속에 저장하려다 보니 머리 (메모리) 가 너무 무겁고 비싸게 유지됩니다.

이 천재를 더 작은 방 (휴대폰이나 일반 서버) 에 데려가려면, **불필요한 정보를 버리고 핵심만 남기는 '압축'**이 필요합니다. 하지만 보통은 압축을 하면 지능이 떨어집니다. (예: 천재가 중요한 수학 공식까지 잊어버리는 것)

2. 기존 방법의 한계: "무작위 정리" vs "체계적인 정리"

  • 기존 훈련 (AdamW 등): 천재가 정보를 배울 때, 책장 전체를 무작위로 훑어보며 중요한 것, 중요하지 않은 것을 구분합니다. 결과적으로 책장에는 중요한 정보도 있지만, 불필요한 잡동사니도 꽤 많이 섞여 있습니다. 그래서 압축하려고 하면, 중요한 정보까지 함께 버리게 되어 성능이 급격히 떨어집니다.
  • 새로운 훈련 (Muon): 최근 등장한 'Muon'이라는 훈련법은 천재가 정보를 배울 때, 책장 전체를 한 번에 훑어보며 (Full-rank) 매우 효율적으로 학습합니다. 놀라운 점은, 이 방법으로 훈련된 천재도 실제로는 책장 대부분이 비어있고 핵심 정보만 모여 있다는 사실이 발견되었습니다. 하지만 이 '비어있는 상태'가 너무 약해서, 압축을 너무 강하게 가하면 바로 무너집니다.

3. 해결책: "NuMuon (뉴뮤온)" - "의도적으로 정리하는 훈련"

이 논문은 NuMuon이라는 새로운 훈련법을 제안합니다.

비유: "책장 정리를 미리 계획하는 것"

기존의 'Muon'이 무작위로 정보를 받아들이는 대신, NuMuon은 훈련 시작부터 **"이 책장은 최대 10 권의 책만 담을 수 있어!"**라고 미리 규칙을 정해둡니다.

  • 핵심 아이디어: 천재가 정보를 배울 때, 중요한 정보 (핵심) 만 남기고 나머지는 아예 들어오지 못하게 막는 것입니다.
  • 어떻게?: 수학적으로 '핵심 정보의 양 (핵심 노름, Nuclear Norm)'을 제한합니다. 마치 가방의 무게를 미리 정해두고, 그 무게 안에 가장 중요한 물건들만 넣으라고 지시하는 것과 같습니다.

4. NuMuon 의 놀라운 결과

이 방법으로 훈련된 천재 (모델) 는 다음과 같은 장점이 있습니다:

  1. 압축에 강함: 처음부터 불필요한 잡동사니를 배제했기 때문에, 나중에 압축 (가방을 더 작게 만들기) 을 하더라도 핵심 지능이 거의 손상되지 않습니다.
  2. 성능 유지: 압축률이 80% 에 달해도 (가방을 5 분의 1 로 줄여도) 원래 천재의 실력을 90% 이상 유지합니다. 기존 방법들은 이 정도 압축이면 천재가 멍청해지거나 아예 말을 못 했습니다.
  3. 빠른 속도: 불필요한 정보가 없으므로, 이 천재가 말을 할 때 (추론) 훨씬 더 빠르고 가볍습니다.

5. 결론: "가볍고 빠른 미래"

이 연구는 **"무거운 AI 모델을 훈련할 때, 처음부터 가볍게 만들 수 있는 방법"**을 찾아냈습니다.

  • 기존: 무거운 짐을 싣고 가서, 나중에 버릴 만한 것을 찾아서 버리다 보니 중요한 것도 함께 버림. (성능 저하)
  • NuMuon: 처음부터 가방의 크기를 정해두고, 그 안에 꼭 필요한 것만 싣고 출발. (성능 유지 + 가벼움)

이 기술이 상용화되면, 고가의 서버 없이도 일반 스마트폰에서 매우 똑똑하고 빠른 AI 를 구동할 수 있게 되어, AI 기술이 우리 일상으로 훨씬 더 빠르게 퍼져나갈 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →