The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Each language version is independently generated for its own context, not a direct translation.

Imagina que los chips de inteligencia artificial (como los que usan los teléfonos o los centros de datos) son como cocinas gigantes donde se preparan millones de platos (datos) a la vez.

Durante décadas, la "receta" estándar para cocinar números en estas cocinas ha sido el formato IEEE 754 (el estándar de punto flotante). Es como si todos los chefs usaran la misma cuchara medidora muy precisa, pero con un problema: es una cuchara complicada, pesada y lenta de limpiar. Además, cuando los ingredientes (los datos) son extremadamente grandes o pequeños, la cuchara se rompe o necesita un "jefe de cocina" (hardware especial) que intervenga constantemente para evitar desastres.

El artículo que presentas propone una nueva receta llamada AetherFloat. Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: La Cuchara Complicada (IEEE 754)

En la cocina actual, los números tienen una "parte oculta". Imagina que tienes una regla, pero el primer centímetro siempre está escondido bajo la mesa. Para saber cuánto mide algo, el chef tiene que hacer un cálculo mental extra para "desenmascarar" ese centímetro.

El resultado: Esto ocupa mucho espacio en la cocina (silicio) y gasta mucha energía.
El otro problema: Cuando los ingredientes son muy grandes (como en los modelos de lenguaje modernos), la regla estándar se rompe. Para arreglarlo, la industria ha añadido un "jefe de cocina" (llamado Block-Scaling o AMAX) que tiene que medir todos los ingredientes antes de cocinar para ajustar la receta. Esto ralentiza todo el proceso.

2. La Solución: AetherFloat (La Nueva Cuchara)

Los autores proponen cambiar la cuchara por una más simple y directa.

A. "Sin Parte Oculta" (Mantisa Explícita)

En lugar de esconder el primer centímetro, AetherFloat lo pone a la vista.

La analogía: Imagina que en lugar de tener una caja de herramientas donde la llave más importante está escondida, tienes una caja donde todas las herramientas están a la vista.
El beneficio: Al no tener que "desenmascarar" nada, el chip puede hacer las multiplicaciones mucho más rápido y ocupar menos espacio. De hecho, al hacer la regla un poco más corta (perdiendo un poquito de precisión matemática teórica), logran que la cuchara sea 33% más pequeña y consuma 22% menos energía.

B. El Sistema de Base 4 (Escalera de Cuatro)

Los números actuales se cuentan en base 2 (como subir escalones de 1 en 1). AetherFloat usa Base 4 (subir escalones de 2 en 2).

La analogía: Si tienes que llegar al techo de un edificio, subir escalones de 1 en 1 es lento. Subir de 2 en 2 es más rápido.
El resultado: Esto permite que el chip maneje números enormes (como los que usan los LLMs) sin que se desborden. Es como tener una escalera que llega mucho más alto sin necesidad de que el "jefe de cocina" intervenga para ajustar la altura.

C. Comparación Inteligente (Orden Lógico)

En la cocina actual, si quieres saber qué ingrediente es más grande, tienes que usar una calculadora especial porque los números negativos y positivos se ordenan de forma confusa.

La analogía: AetherFloat organiza los ingredientes como si fueran libros en una estantería: del 1 al 100, sin importar si son positivos o negativos.
El beneficio: El chip puede comparar números usando la misma lógica simple que usa para sumar enteros, lo que hace que funciones como "tomar el máximo" (ReLU) sean instantáneas y no requieran circuitos especiales.

3. El Truco: "Sin Jefe de Cocina" (Block-Scale-Free)

La mayor innovación es que eliminan la necesidad del "jefe de cocina" (AMAX).

Cómo funciona: Gracias a que su escalera (Base 4) llega tan alto, los ingredientes gigantes no rompen la regla. El chip los acepta tal cual.
El precio: Para que esto funcione, no puedes simplemente tomar un modelo entrenado y usarlo (como se hace hoy en día). Tienes que entrenar al modelo pensando en esta nueva cuchara desde el principio (esto se llama Quantization-Aware Training o QAT).
La analogía: Es como si dejaras de usar un molde de repostería estándar y empezaras a hornear pasteles con un molde nuevo. No puedes usar la masa vieja; tienes que aprender a amasar de una manera nueva para que el pastel salga perfecto. Pero una vez que lo haces, el horno es mucho más eficiente.

4. ¿Qué dicen los resultados?

Eficiencia: El chip es más pequeño, gasta menos batería y es más rápido.
Precisión: En modelos grandes (como los de 16 bits), funciona casi igual de bien que los estándares actuales.
El reto de los 8 bits: Para los modelos muy pequeños (8 bits), si no los entrenas específicamente para este nuevo formato, pierden un poco de calidad. Pero si los entrenas bien, pueden manejar números gigantes sin los circuitos pesados que usan hoy en día.

En Resumen

AetherFloat es como rediseñar el motor de un coche para que sea más ligero y eficiente.

Antes: Usábamos un motor complejo con piezas ocultas y necesitábamos un mecánico (hardware extra) para ajustar la presión constantemente.
Ahora (AetherFloat): Usamos un motor más simple, con todas las piezas visibles, que maneja la presión de los gases (datos gigantes) por sí mismo.
El cambio: Para usar este nuevo motor, necesitas aprender a conducir de una forma ligeramente diferente (entrenar el modelo de IA específicamente para él), pero el viaje será más rápido, barato y eficiente.

Es una propuesta de Hardware/Software Co-Design: no solo cambian el chip, sino que cambian la forma en que se entrena la inteligencia artificial para aprovechar al máximo ese chip nuevo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators" en español.

1. El Problema

El estándar IEEE 754, base de la computación moderna, presenta ineficiencias significativas cuando se implementa en Unidades de Procesamiento Neural (NPUs) masivamente paralelas para IA:

Sobrecarga de Hardware: La normalización de base 2 requiere "crossbars" (barras de cruce) de alineación profundos y lógicos complejos, aumentando el área de silicio y el consumo de energía.
Trampas de Microcódigo: Los números subnormales en formatos estándar provocan interrupciones en la tubería (pipeline stalls) y requieren lógica de microcódigo, lo que ralentiza el procesamiento.
Limitaciones de Rango Dinámico en 8 bits: La industria ha migrado a formatos de 8 bits (como FP8 E4M3) para acelerar la inferencia de Grandes Modelos de Lenguaje (LLM). Sin embargo, estos formatos tienen un rango dinámico limitado que no puede absorber nativamente los "valores atípicos" (outliers) de las activaciones de los LLM.
Dependencia de Escalamiento de Bloque (AMAX): Para evitar desbordamientos, se requiere hardware complejo de "Escalamiento de Bloque" (AMAX) que calcula el máximo absoluto por bloque, lo que introduce latencia y penalizaciones de área.

2. Metodología y Arquitectura Propuesta

Los autores proponen AetherFloat, una familia de arquitecturas de punto flotante diseñada desde cero para la co-diseño de hardware y software. Se basa en tres innovaciones estructurales principales:

A. Desempaquetado Complementario a Uno Lexicográfico

Innovación: Utiliza una codificación de magnitud con signo que invierte los bits de magnitud de los valores negativos (Complemento a Uno) en lugar del estándar de magnitud con signo o complemento a dos.
Beneficio: Esto permite una comparabilidad entera nativa y monótona. Los números de punto flotante se pueden ordenar y comparar directamente usando ALUs enteras estándar sin lógica FPU dedicada, eliminando la latencia en operaciones no lineales críticas como ReLU (max(0, x)) y Max-Pooling.

B. Escalamiento Cuatradix (Base-4)

Innovación: En lugar de la base 2 tradicional, AetherFloat utiliza una base 4 para el exponente.
Beneficio:
- Reduce la profundidad de los desplazadores de barril de alineación de 4 etapas a 2 etapas (multiplexores ultra-rápidos).
- Expande exponencialmente el rango dinámico, permitiendo absorber valores atípicos de LLM sin necesidad de escalamiento de bloque externo.
- Compensación de Precisión: Aunque la base 4 introduce una variación de precisión ("wobble"), los autores argumentan que el descenso de gradiente estocástico (SGD) en el aprendizaje profundo absorbe esta variación (actuando como una regularización benigna), con una penalización de SQNR de solo ~3.04 dB que no degrada la precisión final.

C. Mantisa Explícita y Subnormales Sin Trampas

Innovación: Elimina el "bit oculto" (hidden bit) de IEEE 754. La mantisa se almacena explícitamente.
Beneficio:
- Reducción de Área: Al eliminar el bit oculto, un formato de 8 bits (AF8) puede usar una mantisa de 3 bits explícitos, reduciendo la matriz de multiplicadores de hardware de 4x4 a 3x3.
- Subnormales Sin Ramificación: Los números subnormales fluyen a través de la misma ruta de datos que los normales sin necesidad de lógica de excepción o microcódigo, eliminando las paradas en la tubería.

3. Variantes de Formato

AetherFloat-8 (AF8): Diseñado específicamente para inferencia.
- Es un formato "Block-Scale-Free" (libre de escalamiento de bloque).
- Rango dinámico: Aprox. $1.22 \times 10^{-4} $a$ 57,344 $(hasta$ 229,376$ en configuración idealizada), superando ampliamente al FP8 (~448).
- Requiere Entrenamiento Consciente de la Cuantización (QAT) para su despliegue, ya que no es un reemplazo directo de "plug-and-play" para la cuantización post-entrenamiento (PTQ) debido a la falta de lógica AMAX.
AetherFloat-16 (AF16): Un reemplazo casi sin pérdida para bfloat16, utilizando una mantisa de 8 bits explícita y un rango dinámico similar al bfloat16.

4. Resultados Empíricos

Impacto en Hardware (Síntesis en SkyWater 130nm)

Área: Reducción del 33.17% en el área de la unidad MAC (Multiply-Accumulate).
Potencia: Reducción del 21.99% en el consumo total de energía.
Retraso: Reducción del 11.73% en el retraso de la ruta crítica.
Comparación: La eliminación del bit oculto y la simplificación de la lógica de alineación son los impulsores principales de estas mejoras.

Evaluación de Software (Modelo Qwen2.5-7B)

AF16: Muestra un rendimiento casi idéntico al bfloat16 en tareas de lenguaje (WikiText-2, HellaSwag), validando que la variación de precisión de la base 4 es manejable a 16 bits.
AF8 (PTQ vs. QAT):
- En PTQ (cuantización post-entrenamiento), AF8 muestra degradación significativa (PPL más alto) porque los pesos convergidos pequeños se desbordan a cero al no tener escalamiento de bloque.
- En QAT (entrenamiento consciente de la cuantización), AF8 demuestra un flujo de gradiente viable y una convergencia estable. En pruebas de 200 pasos, AF8 mostró una recuperación de pérdida más fuerte y estable en comparación con FP8, que sufrió inestabilidad a mitad/fin del entrenamiento.

5. Contribuciones Clave y Significancia

Eliminación del Hardware AMAX: AetherFloat-8 resuelve el problema de los valores atípicos en LLMs expandiendo el rango dinámico nativo, eliminando la necesidad de circuitos complejos de escalamiento de bloque que consumen área y energía.
Eficiencia de Hardware Radical: Al sacrificar un bit de precisión matemática (mantisa explícita vs. oculta), se logra una reducción masiva en la complejidad del multiplicador y el área de silicio, crucial para aceleradores de IA de alta densidad.
Comparabilidad Entera Nativa: La codificación lexicográfica permite que las operaciones de comparación y no lineales se ejecuten en ALUs enteras de bajo costo, simplificando el diseño del datapath.
Nueva Ruta de Despliegue: Establece un nuevo paradigma donde los formatos de inferencia de ultra-baja precisión (8 bits) requieren QAT en lugar de PTQ, intercambiando el costo de re-entrenamiento por una eficiencia de hardware superior y la eliminación de la lógica de escalamiento dinámico.

Conclusión:
AetherFloat representa un cambio de paradigma en el diseño de aceleradores de IA, priorizando la simplicidad del hardware y el rango dinámico nativo sobre la compatibilidad estricta con IEEE 754. Aunque introduce requisitos de software específicos (QAT), ofrece ganancias sustanciales en área, potencia y latencia, posicionándose como una solución prometedora para la próxima generación de inferencia de LLMs.