Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Meng Xin, Sweta Priyadarshi, Jingyu Xin, Bilal Kartal, Aditya Vavre, Asma Kuriparambil Thekkumpate, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Ido Shahaf, Akhiad Bercovich, Kinjal Patel, Suguna Varshini Velury, Chenjie Luo, Zhiyu Cheng, Jenny Chen, Chen-Han Yu, Wei Ping, Oleg Rybakov, Nima Tajbakhsh, Oluwatobi Olabiyi, Dusan Stosic, Di Wu, Song Han, Eric Chung, Sharath Turuvekere Sreenivas, Bryan Catanzaro, Yoshi Suhara, Tijmen Blankevoort, Huizi Mao

Publicado 2026-03-04

📖 4 min de lectura☕ Lectura para el café

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este informe técnico es como una receta de cocina para salvar a un chef de estrella Michelin que ha sido obligado a cocinar con utensilios de plástico.

Aquí tienes la explicación de la investigación de NVIDIA sobre NVFP4 y QAD, traducida a un lenguaje sencillo y con analogías creativas:

🍽️ El Problema: El Chef y los Utensilios de Plástico

Imagina que tienes un Chef Maestro (el modelo de Inteligencia Artificial) que es increíblemente bueno cocinando platos complejos. Este chef usa utensilios de acero inoxidable de alta precisión (formato de datos BF16, que es muy preciso pero ocupa mucho espacio y energía).

Ahora, NVIDIA quiere que este chef trabaje en una cocina más pequeña y rápida (los nuevos chips de la serie Blackwell). Para ello, le obligan a usar utensilios de plástico de 4 bits (NVFP4).

La ventaja: Los utensilios de plástico son más ligeros, baratos y permiten cocinar el doble de rápido.
El problema: Cuando el chef intenta usar los utensilios de plástico, sus platos salen un poco "sosos" o mal sazonados. Pierde precisión. En modelos pequeños, el plato casi no se puede comer.

🛠️ La Solución Vieja: "Entrenar de Nuevo" (QAT)

Antes, la única forma de arreglar esto era llevar al chef a una escuela de cocina intensiva con los utensilios de plástico.

El problema: Para los chefs modernos (modelos de IA avanzados), esto es una pesadilla. Han pasado por muchas etapas de entrenamiento (aprendiendo a cocinar, luego a cocinar para críticos, luego a fusionar estilos). Replicar todo ese proceso de nuevo con los utensilios de plástico es demasiado complicado, inestable y requiere los datos originales, que a veces ni siquiera existen o son secretos.

✨ La Nueva Magia: "La Clase de Observación" (QAD)

Aquí es donde entra la Distilación Consciente de la Cuantización (QAD). En lugar de obligar al chef a volver a la escuela, hacemos algo más inteligente:

El Maestro (Teacher): Dejamos al Chef Maestro original (con sus utensilios de acero) cocinando en la cocina de al lado. Él sabe exactamente cómo debe saber el plato perfecto.
El Aprendiz (Student): Ponemos al chef con utensilios de plástico (el modelo cuantizado) a observar al Maestro.
La Técnica: No le decimos al aprendiz "cocina este plato específico". Le decimos: "Imita exactamente el olor, la textura y el sabor que el Maestro está creando".

En términos técnicos, en lugar de enseñarle al modelo a predecir la palabra correcta (como en la escuela), le enseñamos a copiar la "probabilidad" o la "intuición" del modelo original.

🚀 ¿Por qué es tan genial este método?

El papel demuestra tres cosas increíbles con esta analogía:

Funciona incluso si el Chef es un "Genio de Múltiples Etapas":
Muchos chefs modernos han pasado por entrenamientos extraños (Refuerzo por Aprendizaje, fusión de modelos). Intentar entrenarlos de nuevo con utensilios de plástico suele arruinar su talento. Pero con la "Clase de Observación" (QAD), el aprendiz simplemente copia al Maestro y recupera casi todo el sabor original, sin importar cuán complejo haya sido el entrenamiento previo.
No necesitas todos los ingredientes (Robustez a los datos):
Imagina que el Maestro sabe cocinar 100 platos diferentes (matemáticas, código, poesía).
- Si solo le das al aprendiz datos de matemáticas, ¡sorprendentemente! El aprendiz también empieza a cocinar código muy bien.
- ¿Por qué? Porque al imitar la "intuición" del Maestro, el aprendiz absorbe el conocimiento de todos los platos, incluso si solo está practicando con uno. No necesitas tener el libro de recetas completo.
Es resistente a la "basura":
El experimento fue tan extremo que probaron enseñar al aprendiz con datos totalmente aleatorios (como si le dieran papel arrugado en lugar de ingredientes). ¡Funcionó! El aprendiz no se rompió. Esto significa que el método es muy estable y no requiere datos perfectos para funcionar.

📊 El Resultado Final

Gracias a esta técnica (QAD):

Los modelos pequeños (que antes sufrían mucho al pasar a 4 bits) ahora son tan buenos como los modelos grandes y precisos.
Se pueden usar en hardware nuevo y rápido (NVFP4) sin perder la calidad de la respuesta.
Es una solución práctica para empresas que quieren ahorrar dinero y energía sin sacrificar la inteligencia de su IA.

En resumen: En lugar de intentar forzar a un modelo de IA a aprender de cero con herramientas baratas (lo cual suele fallar), simplemente le ponemos un "espejo" del modelo original para que copie su comportamiento. ¡Y así recuperamos la magia! ✨🤖

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Destilación Consciente de la Cuantización (QAD) para NVFP4

1. El Problema

La expansión de los Modelos de Lenguaje Grandes (LLM) y los Modelos Visuales-Lingüísticos (VLM) ha impulsado la necesidad de formatos numéricos más eficientes para reducir costos computacionales y de memoria. Mientras que el formato de punto flotante de 8 bits (FP8) es común, el formato de 4 bits de punto flotante (NVFP4) de NVIDIA ofrece un rendimiento aritmético 2-3 veces superior y reduce el uso de memoria a la mitad en comparación con FP8.

Sin embargo, la Cuantización Post-Entrenamiento (PTQ) en NVFP4 presenta desafíos significativos:

Pérdida de precisión: En modelos pequeños o en tareas sensibles, la PTQ estándar provoca una caída de precisión no despreciable.
Limitaciones de la Entrenamiento Consciente de la Cuantización (QAT): Los métodos tradicionales de QAT requieren replicar las complejas tuberías de entrenamiento originales (que incluyen Ajuste Fino Supervisado -SFT-, Aprendizaje por Refuerzo -RL- y fusión de modelos). Esto es a menudo inviable debido a la falta de acceso a los datos originales, la complejidad de las etapas de RL y la inestabilidad del entrenamiento.

2. Metodología: Quantization-Aware Distillation (QAD)

El informe propone QAD como una solución robusta para recuperar la precisión de modelos cuantizados en NVFP4 sin necesidad de replicar el entrenamiento original.

Concepto Central: QAD utiliza el modelo original de alta precisión (BF16) como "maestro" y entrena al modelo cuantizado (NVFP4) como "estudiante".
Función de Pérdida: A diferencia de la QAT, que utiliza la pérdida de la tarea (ej. entropía cruzada para predicción de tokens), QAD utiliza la divergencia de Kullback-Leibler (KL) entre las distribuciones de salida del maestro y el estudiante.
- Fórmula: $\mathcal{L}_{QAD} = D_{KL}(p_{teacher} || p_{student})$
Ventaja Clave: Al minimizar la divergencia KL, el modelo cuantizado aprende a imitar la distribución de probabilidad exacta del modelo maestro, preservando sus capacidades y evitando la inestabilidad asociada con el reentrenamiento desde cero o el uso de datos de RL complejos.

3. Contribuciones Clave

Efectividad en Pipelines Multi-etapa: QAD demuestra una estabilidad superior en modelos que han pasado por SFT, RL y fusión de modelos, donde la QAT tradicional suele fallar o degradar las capacidades del modelo.
Robustez ante la Calidad y Cobertura de Datos:
- QAD no requiere el conjunto de datos de entrenamiento original completo.
- Funciona eficazmente con datos parciales (ej. solo matemáticas o solo código) logrando transferencia de conocimiento entre dominios.
- Es robusto incluso con datos sintéticos o secuencias de tokens aleatorios, sin romper el modelo.
Recuperación de Precisión en Modelos RL: Para modelos entrenados con Aprendizaje por Refuerzo (RL), QAD es esencial. La QAT tiende a destruir las capacidades aprendidas en la etapa de RL al intentar reentrenar con datos de inicio en frío (cold-start SFT), mientras que QAD restaura el rendimiento casi idéntico al BF16.
Configuración NVFP4: El método se valida específicamente para el formato NVFP4, que utiliza bloques más pequeños (16) y escalado de dos niveles, ofreciendo mayor precisión que las cuantizaciones enteras (INT4) o MXFP4.

4. Resultados Experimentales

Los autores evaluaron QAD en varios modelos de última generación, incluyendo Nemotron Nano, Llama Nemotron Super y AceReason Nemotron.

Recuperación de Precisión: QAD logra consistentemente recuperar la precisión hasta niveles cercanos al modelo base BF16 en múltiples benchmarks (MATH500, AIME25, GPQA-D, LiveCodeBench).
- Ejemplo: En modelos pesados en RL como Nemotron 3 Nano, la QAT degradó el rendimiento significativamente (ej. caída de 35.9 a 24.8 en AA-LCR), mientras que QAD recuperó el 34.3, acercándose al BF16 (35.9).
Transferencia de Dominio: En el modelo AceReason Nemotron, entrenar QAD solo con datos de código permitió recuperar un alto rendimiento en matemáticas, demostrando que la distribución del maestro codifica conocimiento implícito transversal.
Hiperparámetros:
- Tasa de Aprendizaje: Se requieren tasas conservadoras (1e-6 a 1e-5). Para modelos RL, una tasa ligeramente mayor (1e-5) funciona mejor que para modelos SFT.
- Datos: Se necesitan cantidades de datos mucho menores que el entrenamiento original (ej. ~0.3B tokens para un modelo de 49B).
Comparativa de Pérdidas: La divergencia KL supera consistentemente al Error Cuadrático Medio (MSE) en la recuperación de la distribución de salida.

5. Significado e Impacto

Este trabajo establece a QAD como el método estándar de facto para la recuperación de precisión en inferencia NVFP4, especialmente para modelos modernos complejos.

Viabilidad Práctica: Elimina la barrera de tener que acceder a los datos de entrenamiento originales o replicar pipelines de RL costosos y complejos.
Adopción Industrial: Permite desplegar modelos LLM y VLM en hardware de borde o centros de datos con restricciones de memoria (usando NVFP4) sin sacrificar la calidad de la respuesta.
Disponibilidad: NVIDIA ha liberado los checkpoints NVFP4 cuantizados y el código (Megatron-LM, NeMo, HuggingFace) para que la comunidad pueda adoptar estas técnicas inmediatamente.

En conclusión, QAD resuelve el cuello de botella de la cuantización de 4 bits en modelos avanzados, ofreciendo una vía eficiente, estable y de bajo costo computacional para mantener la inteligencia de los modelos en formatos de baja precisión.

Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

🍽️ El Problema: El Chef y los Utensilios de Plástico

🛠️ La Solución Vieja: "Entrenar de Nuevo" (QAT)

✨ La Nueva Magia: "La Clase de Observación" (QAD)

🚀 ¿Por qué es tan genial este método?

📊 El Resultado Final

Resumen Técnico: Destilación Consciente de la Cuantización (QAD) para NVFP4

1. El Problema

2. Metodología: Quantization-Aware Distillation (QAD)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression