Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Este trabajo evalúa los formatos HiFloat (HiF8 y HiF4) en NPUs Ascend, demostrando que su diseño jerárquico y compatibilidad con marcos de cuantización existentes permiten una inferencia eficiente de LLMs al superar las limitaciones de precisión de los formatos enteros en datos de alta varianza.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un gigante digital (una Inteligencia Artificial muy avanzada) que necesita viajar en un coche pequeño y económico para llegar a su destino. Ese "coche" es el chip de tu computadora (en este caso, un chip llamado Ascend NPU de Huawei), y el "gigante" es el modelo de lenguaje (como los que usan para escribir o chatear).

El problema es que el gigante es enorme y pesado. Si intenta viajar en su forma original, el coche se rompe o se queda sin gasolina (memoria y potencia). Para solucionarlo, necesitamos hacer al gigante más pequeño y ligero sin que pierda su inteligencia. A esto le llamamos cuantización.

Aquí es donde entra este paper, que es como un manual de pruebas de choques para ver qué tipo de "maletas" (formatos de datos) son mejores para transportar a este gigante.

🎒 El Problema: ¿Qué tipo de maleta usamos?

Antes, todos usaban maletas rígidas y cuadradas llamadas INT8 (números enteros). Son buenas para cosas que no cambian mucho, como las "recetas" fijas del gigante (sus pesos). Pero cuando el gigante empieza a hablar o pensar (activaciones), sus ideas son caóticas, con valores muy pequeños y otros gigantes de repente. Las maletas cuadradas no se adaptan bien a esto y la información se rompe.

Los investigadores probaron maletas flexibles llamadas HiFloat (HiF8 y HiF4), diseñadas específicamente para los coches de Huawei.

🔍 Las 3 Grandes Descubrimientos (Explicados con Analogías)

1. La Regla de Oro: "Cada cosa, su caja"

  • Lo que dicen: Para las "recetas" fijas (pesos), las cajas cuadradas (INT8) son mejores. Para las ideas cambiantes (activaciones), las cajas flexibles (HiFloat) ganan.
  • La analogía: Imagina que tienes que mover ladrillos (pesos). Son todos del mismo tamaño y forma. Una caja rígida perfecta (INT8) los apila sin desperdiciar espacio.
    Pero ahora imagina que tienes que mover globo aerostáticos (activaciones). Algunos son diminutos, otros son gigantes. Si usas la caja rígida, o los globos pequeños se pierden entre los huecos, o los gigantes explotan la caja. Necesitas una caja elástica (HiFloat) que se estire para los grandes y se contraiga para los pequeños.

2. El Truco del 4-Bit: La Torre de Bloques

  • Lo que dicen: Cuando intentamos hacer las maletas muy pequeñas (4 bits), las cajas cuadradas (INT4) fallan estrepitosamente. Se rompen. Pero HiFloat usa una estructura de "tres niveles" (HiF4) que salva el día.
  • La analogía: Imagina que tienes que empaquetar una ciudad entera en una caja de zapatos (4 bits).
    • INT4 (La caja rígida): Intenta poner todo en una sola fila. Si hay un edificio muy alto (un dato raro), la caja se rompe y todo se aplasta.
    • HiF4 (La torre de bloques): En lugar de una sola fila, construye una torre de tres pisos.
      • Piso 1: Un gran mapa general.
      • Piso 2: Un mapa de barrios.
      • Piso 3: Un mapa de calles.
        Si hay un edificio gigante en un barrio, solo ajustas ese piso, sin afectar al resto de la ciudad. ¡Así es como HiF4 evita que el gigante pierda su memoria!

3. El Efecto "Suavizado"

  • Lo que dicen: HiFloat funciona increíblemente bien cuando se combina con técnicas de "suavizado" (como SmoothQuant).
  • La analogía: Es como poner un colchón debajo de las maletas. Las técnicas de suavizado nivelan el suelo antes de que las maletas (HiFloat) se suban al coche. Juntos, hacen que el viaje sea tan suave que el gigante casi no nota que está viajando en una caja pequeña.

🏆 El Veredicto Final

El paper concluye que:

  1. Para 8 bits (maletas medianas): Mezcla lo mejor de ambos mundos. Usa cajas cuadradas (INT8) para las recetas fijas y cajas elásticas (HiF8) para las ideas cambiantes.
  2. Para 4 bits (maletas minúsculas): ¡Olvídate de las cajas cuadradas! Son un desastre. HiF4 es el héroe. Gracias a su estructura de "torre de bloques", puede comprimir al gigante a un tamaño increíblemente pequeño sin que pierda su inteligencia.

En resumen: Huawei ha encontrado la llave maestra (HiFloat) para que sus chips sean super rápidos y eficientes, permitiendo que modelos gigantes de IA viajen en coches pequeños sin sufrir daños. ¡Es como lograr que un elefante entre en un Mini Cooper sin aplastarse! 🐘🚗💨

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →