Pretraining Large Language Models with NVFP4

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Publicado 2026-03-06

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que entrenar una Inteligencia Artificial (IA) gigante es como construir un rascacielos. Para hacerlo, necesitas millones de ladrillos (datos) y una grúa muy potente (computadoras).

Hasta ahora, para construir estos rascacielos digitales, usábamos "ladrillos" de un tamaño estándar (llamados FP8). Funcionaban bien, pero eran pesados y costosos de mover. NVIDIA se preguntó: "¿Y si pudiéramos usar ladrillos mucho más pequeños (4 bits) para hacer la construcción el doble de rápida y con la mitad de energía?".

El problema es que los ladrillos pequeños son frágiles. Si intentas construir un rascacielos entero con ellos, la estructura tiembla y se cae.

Este documento de NVIDIA presenta una solución genial llamada NVFP4. Es como un "kit de construcción" especial para usar esos ladrillos diminutos sin que el edificio se derrumbe. Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: Los "Gigantes" y los "Enanos"

En el mundo de las matemáticas de la IA, hay números muy grandes (gigantes) y números muy pequeños (enanos).

El problema: Cuando usas ladrillos pequeños (4 bits), si hay un "gigante" (un número muy grande) en tu grupo de datos, ocupa todo el espacio y los "enanos" se vuelven invisibles (se convierten en cero). Esto hace que la IA aprenda mal.
La solución de NVFP4: Imagina que NVFP4 es un sistema de organización inteligente. En lugar de tener una sola regla para todo el grupo, divide los datos en grupos pequeños (bloques de 16). Si hay un gigante en un grupo, NVFP4 ajusta la escala de ese grupo específico para que el gigante quepa, sin aplastar a los enanos. Además, usa una "regla maestra" (a nivel de todo el tensor) para asegurar que nada se pierda. Es como tener un equipo de arquitectos que ajustan las escaleras de cada habitación individualmente para que todos quepan.

2. La Estrategia: No todo puede ser de plástico

Aunque queremos usar ladrillos pequeños para todo, hay partes del edificio que son tan delicadas que no pueden soportar la fragilidad de los ladrillos de 4 bits.

La analogía: Imagina que estás construyendo un castillo de naipes. Puedes usar papel reciclado (4 bits) para las paredes, pero si intentas hacer la base o la punta con papel reciclado, se doblará y se caerá.
La solución: NVIDIA deja las partes más críticas (las últimas capas del modelo y algunas específicas) en "papel de alta calidad" (precisión BF16 o FP8). El resto del edificio se construye con los ladrillos pequeños. Esto asegura que la estructura sea sólida.

3. El Truco de la "Bolsa de Canicas" (Transformaciones Hadamard)

A veces, los datos tienen patrones extraños que confunden a la IA.

La analogía: Imagina que tienes una bolsa con canicas de colores. Si las sacas en el orden en que vinieron, las rojas siempre caen juntas y las azules se pierden.
La solución: NVFP4 usa una técnica llamada Transformación Hadamard Aleatoria. Es como agitar la bolsa fuertemente antes de sacar las canicas. Esto mezcla los datos de tal forma que los "gigantes" (valores raros) se dispersan y se vuelven más fáciles de manejar para los ladrillos pequeños. Es como mezclar bien la pintura para que no queden grumos.

4. La Brújula Invertida (Redondeo Estocástico)

Cuando reduces el tamaño de los números, a veces tienes que "redondear". Si siempre redondeas hacia arriba o siempre hacia abajo, introduces un error sistemático (como una brújula que siempre apunta 5 grados al norte).

La analogía: Imagina que tienes que adivinar si una moneda está en la mano izquierda o derecha. Si siempre adivinas "izquierda", te equivocas mucho si la moneda está a la derecha.
La solución: NVFP4 usa Redondeo Estocástico. En lugar de decidir siempre igual, "tira un dado" para decidir hacia dónde redondear. A veces arriba, a veces abajo. A la larga, los errores se cancelan entre sí y la IA aprende con más precisión. Es como promediar muchas opiniones diferentes en lugar de seguir una sola.

5. El Resultado: ¡El edificio se mantiene en pie!

NVIDIA probó esto construyendo un "rascacielos" de 12 mil millones de parámetros (un modelo muy grande) con 10 billones de palabras de datos.

El hallazgo: El edificio construido con ladrillos pequeños (NVFP4) quedó tan fuerte y alto como el construido con ladrillos grandes (FP8).
La ventaja: Al usar ladrillos más pequeños, la construcción fue más rápida y consumió mucha menos energía. Además, comparado con otro método de ladrillos pequeños (MXFP4), NVFP4 construyó el edificio con menos ladrillos (menos datos necesarios) para lograr el mismo resultado.

En resumen

NVIDIA ha descubierto cómo usar una versión "miniatura" de los datos para entrenar IAs gigantes. Lo lograron no solo haciendo los ladrillos más pequeños, sino creando un sistema de construcción inteligente que:

Ajusta las escalas localmente.
Protege las partes delicadas del edificio.
Mezcla los datos para evitar atascos.
Usa el azar para corregir errores.

Esto significa que en el futuro, podríamos tener IAs más inteligentes que entrenan más rápido y consumen menos electricidad, lo cual es una gran noticia para el planeta y para la tecnología.

Pretraining Large Language Models with NVFP4

1. El Problema: Los "Gigantes" y los "Enanos"

2. La Estrategia: No todo puede ser de plástico

3. El Truco de la "Bolsa de Canicas" (Transformaciones Hadamard)

4. La Brújula Invertida (Redondeo Estocástico)

5. El Resultado: ¡El edificio se mantiene en pie!

En resumen

Título: Preentrenamiento de Modelos de Lenguaje Grande con NVFP4

1. El Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Pretraining Large Language Models with NVFP4

1. El Problema: Los "Gigantes" y los "Enanos"

2. La Estrategia: No todo puede ser de plástico

3. El Truco de la "Bolsa de Canicas" (Transformaciones Hadamard)

4. La Brújula Invertida (Redondeo Estocástico)

5. El Resultado: ¡El edificio se mantiene en pie!

En resumen

Título: Preentrenamiento de Modelos de Lenguaje Grande con NVFP4

1. El Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers