Pretraining Large Language Models with NVFP4

이 논문은 무작위 하다마드 변환, 2 차원 양자화, 확률적 반올림, 선택적 고정밀 계층 등을 결합한 새로운 NVFP4 기반 학습 기법을 제안하여, 120 억 파라미터 모델을 10 조 개의 토큰으로 학습시켜 FP8 기준과 비교 가능한 성능을 달성하면서도 4 비트 정밀도 학습의 안정성과 효율성을 입증했습니다.

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 NVIDIA 의 'NVFP4': 거대 AI 를 더 빠르고 가볍게 만드는 마법의 기술

안녕하세요! 오늘 NVIDIA 가 발표한 최신 기술 보고서인 **"NVFP4 를 이용한 대규모 언어 모델 (LLM) 사전 학습"**에 대해 아주 쉽고 재미있게 설명해 드릴게요.

이 기술은 한마디로 **"거대한 AI 두뇌를 훈련시킬 때, 무거운 장비를 덜어내고 더 가볍고 빠르게 움직이게 만드는 방법"**입니다.


1. 왜 이런 기술이 필요할까요? (무거운 짐을 덜어내다)

지금까지 AI 를 가르치려면 엄청난 양의 데이터와 계산 능력이 필요했습니다. 마치 거대한 트럭을 몰아서 전 세계의 책을 한 번에 읽게 하는 것과 비슷하죠. 이 트럭은 연료 (전력) 를 많이 먹고, 도로 (컴퓨터 메모리) 를 꽉 채웁니다.

  • 기존 방식 (FP8): 트럭의 짐을 8 비트라는 '작은 상자'에 담았습니다. 이미 꽤 효율적이지만, 더 줄일 수 있다면 좋겠죠?
  • 새로운 방식 (NVFP4): 이제 짐을 4 비트라는 '초소형 상자'에 담으려 합니다. 상자가 절반으로 작아지면, 트럭은 이중으로 빠르게 달리고 연료도 절반만 먹습니다!

하지만 문제는, 상자가 너무 작으면 중요한 물건 (데이터) 이 깨지거나 사라질 수 있다는 점입니다. 특히 AI 가 배우는 과정에서 '예외적인 상황 (아웃라이어)'이 생기면, 작은 상자에는 들어가지 못해 AI 가 망가질 수 있죠.

2. NVFP4 의 마법 비법 4 가지

NVIDIA 는 이 '초소형 상자'를 사용하면서도 AI 가 망가지지 않게 하기 위해 4 가지 마법 같은 기술을 개발했습니다.

🧙‍♂️ 1. '랜덤 해머드 변환' (RHT): 혼란을 정리하는 마법

  • 상황: AI 가 배우는 데이터 중에는 유독 크고 튀는 숫자 (아웃라이어) 가 가끔 있습니다. 마치 거대한 코끼리가 작은 방에 들어오려는 것처럼요. 4 비트 상자에는 코끼리가 들어갈 수 없습니다.
  • 해결책: NVIDIA 는 이 코끼리를 무작위로 회전시키는 마법을 씁니다. 코끼리가 회전하면 모양이 바뀌어 마치 여러 마리의 토끼처럼 흩어집니다. 이렇게 흩어지면 작은 상자에도 모두 들어갈 수 있게 되죠.
  • 효과: 튀는 숫자들이 골고루 퍼져서, AI 가 중요한 정보를 잃지 않고 학습할 수 있습니다.

⚖️ 2. '2 차원 스케일링': 앞뒤로 똑같은 규칙

  • 상황: AI 는 학습할 때 (앞으로 가는 길) 와 오답을 수정할 때 (뒤로 돌아오는 길) 같은 데이터를 다룹니다. 그런데 4 비트로 줄이다 보면, 앞길과 뒷길에서 데이터의 크기를 재는 **자 (스케일)**가 달라질 수 있습니다.
  • 문제: 앞길에서는 '10cm'로 재던 것이, 뒷길에서는 '12cm'로 재면 AI 는 "어? 내가 뭘 잘못했지?"라고 혼란을 겪습니다. (이걸 '연쇄 법칙 위반'이라고 해요.)
  • 해결책: NVIDIA 는 16x16 크기의 정사각형 블록 단위로 자를 맞춰줍니다. 앞길과 뒷길에서 똑같은 자를 사용하게 해서, AI 가 혼란 없이 올바른 방향으로 학습하게 합니다.

🎲 3. '확률적 반올림': 편견을 없애는 주사위

  • 상황: 숫자를 작은 상자에 넣을 때, 보통은 가장 가까운 숫자로 반올림합니다. 하지만 이렇게 하면 특정 방향으로만 치우치는 **편향 (Bias)**이 생길 수 있습니다. 마치 주사위를 굴려서 '6'만 계속 나오는 것처럼요.
  • 해결책: NVIDIA 는 주사위를 굴려서 결정합니다. 3.6 이라는 숫자가 있다면, 3 이 될지 4 가 될지 확률에 따라 결정합니다.
  • 효과: 장기적으로 보면 편향이 사라져서 AI 가 더 공정하고 정확하게 학습합니다. 특히 **오류를 수정하는 과정 (기울기)**에서 이 기술이 필수적입니다.

🛡️ 4. '혼합 정밀도': 중요한 부분은 보호하다

  • 상황: AI 의 모든 부분을 4 비트로 다 줄이면, 가장 중요한 마지막 단계에서 AI 가 망가질 수 있습니다.
  • 해결책: 전체 중 15% 정도만은 여전히 무거운 16 비트 (BF16) 상자를 쓰게 합니다. 마치 보석은 금고에, 나머지는 일반 가방에 담는 것과 같습니다.
  • 효과: AI 의 핵심 부분 (마지막 레이어 등) 은 안전하게 보호되면서, 나머지는 가볍게 처리하여 전체적인 효율을 극대화합니다.

3. 실제 성과: 얼마나 잘 작동할까요?

NVIDIA 는 이 기술을 이용해 120 억 개의 파라미터를 가진 거대 AI 를 10 조 개의 단어로 훈련시켰습니다. (이는 4 비트로 훈련된 AI 중 가장 긴 기록입니다!)

  • 결과: 4 비트 (NVFP4) 로 훈련한 AI 는, 기존 8 비트 (FP8) 로 훈련한 AI 와 거의 똑같은 성능을 냈습니다.
    • 예: 복잡한 추론 문제 (MMLU-Pro) 에서 8 비트는 62.62%, 4 비트는 **62.58%**로 거의 차이가 없었습니다.
  • 비유: 8 비트 트럭과 4 비트 트럭이 같은 목적지에 도착했는데, 4 비트 트럭은 속도는 두 배로 빠르고 연료는 절반만 썼다는 뜻입니다.

4. 결론: 미래는 더 가볍고 빨라진다

이 기술은 AI 가 더 커지고 더 똑똑해지려면, 결국 계산 효율을 높여야 한다는 것을 보여줍니다.

  • NVFP4는 NVIDIA 의 최신 그래픽카드 (Blackwell) 에서 바로 작동합니다.
  • 앞으로 AI 모델을 만들 때, 더 적은 전력과 더 짧은 시간으로 더 똑똑한 AI 를 만들 수 있는 길이 열린 것입니다.

한 줄 요약:

"NVIDIA 가 AI 의 짐을 반으로 줄이는 마법 상자 (NVFP4) 를 개발했고, 중요한 건 잃지 않으면서 AI 를 두 배로 빠르게 훈련시켰습니다!"

이제 AI 시대는 '무겁고 느린' 시대에서 '가볍고 빠른' 시대로 넘어가고 있습니다! 🚀✨