Addition is almost all you need: Compressing large language models with double binary factorization

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un gigante de la inteligencia artificial (como un modelo de lenguaje grande o LLM) que es increíblemente inteligente, pero también es gordo, lento y muy hambriento de energía. Para que este gigante pueda viajar en tu teléfono o en un servidor pequeño, necesitamos hacerle una "dieta" drástica sin que pierda su inteligencia.

Este paper presenta una nueva dieta llamada Factorización Binaria Doble (DBF). Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: El Gigante es demasiado pesado

Los modelos actuales son como bibliotecas gigantes llenas de libros (datos) escritos con números muy precisos (como 3.1415926...). Para leerlos, la computadora tiene que hacer multiplicaciones complejas, lo cual gasta mucha batería y tarda mucho tiempo.

Los intentos anteriores de "adelgazar" estos modelos (llamados cuantización) consistían en redondear esos números a solo 1 o 2 bits (como si solo pudieras escribir con "Sí" o "No", o con números muy simples).

El problema: Al hacerlo tan simple, el gigante perdía mucha inteligencia (precisión). Era como intentar pintar un cuadro de la Mona Lisa usando solo dos colores: el resultado se veía mal.

2. La Solución: La "Doble Factorización Binaria" (DBF)

Los autores proponen una idea brillante: en lugar de intentar simplificar un número gigante de una sola vez, dividámoslo en dos partes más pequeñas.

Imagina que tienes una receta secreta muy complicada (la matriz de pesos original).

El método antiguo: Intentar escribir la receta entera usando solo palabras de una letra (1 bit). Resultado: La receta no tiene sentido.
El método DBF: Dividir la receta en dos listas de instrucciones simples (dos matrices binarias) y un par de notas al margen (vectores de escala).

La analogía de la construcción:
Imagina que quieres construir un muro de ladrillos (el modelo).

Normalmente, usas ladrillos de todos los colores y tamaños (números complejos).
Con DBF, usas solo ladrillos negros y blancos (matrices binarias de +1 y -1).
Pero, para que el muro tenga la forma correcta, usas dos capas de estos ladrillos simples.
Entre las dos capas, pones unos soportes ajustables (los vectores de escala) que dicen: "Aquí el ladrillo debe ser un poco más grande" o "Aquí un poco más pequeño".

Al combinar dos capas de ladrillos simples con esos soportes, logras reconstruir la forma compleja del muro original con mucha precisión, pero usando materiales muy baratos y fáciles de manejar.

3. ¿Por qué es mejor que lo anterior?

Ahorro de energía (Sumas en lugar de multiplicaciones):
Multiplicar números es como hacer una operación matemática difícil en la cabeza. Sumar es mucho más fácil. Como las matrices son solo de +1 y -1, la computadora no necesita multiplicar; solo necesita sumar o restar. Es como cambiar de conducir un coche de Fórmula 1 (complejo y caro) a andar en bicicleta (simple y eficiente). ¡El modelo se vuelve más rápido y gasta menos batería!
Control total del tamaño (La "perilla" mágica):
Otros métodos te dicen: "O te quedas con 2 bits o te quedas con 3 bits". Es como tener una radio con solo dos canales.
DBF es como una radio con un botón de volumen infinito. Puedes ajustar el tamaño de la "capa intermedia" para obtener exactamente el tamaño que quieras (1.5 bits, 2.3 bits, etc.). Esto permite un ajuste fino que otros métodos no tienen.
Inteligencia selectiva:
El método sabe qué partes del modelo son más importantes (como los ojos de un rostro) y qué partes son menos importantes (como el fondo). Le da más "presupuesto" a las partes importantes para que no pierdan precisión, y comprime más las partes menos importantes.

4. Los Resultados en la vida real

Los autores probaron esto con modelos famosos (como Llama 2 y Llama 3) y descubrieron que:

Velocidad: El modelo comprimido con DBF es entre 2 y 3.5 veces más rápido que el original en tarjetas gráficas actuales.
Calidad: Mantiene una inteligencia casi idéntica al modelo original, superando a otros métodos de compresión extrema.
Flexibilidad: Pueden hacer el modelo tan pequeño como quieran ajustando un solo número, algo que antes era muy difícil.

En resumen

Esta investigación es como inventar un nuevo tipo de maleta de viaje. Antes, para llevar tu ropa (los datos), tenías que usar maletas pesadas de cuero o maletas de plástico rígido que solo cabían en tamaños fijos.

Con DBF, creaste una maleta de tela inteligente que puedes estirar o encoger a tu gusto. Además, en lugar de usar ruedas complejas (multiplicaciones), usa un sistema de deslizamiento simple (sumas) que hace que la maleta sea increíblemente ligera y rápida de mover, sin que se caiga ni una sola prenda de tu viaje.

Es una gran noticia para que la inteligencia artificial sea más rápida, más barata y accesible para todos, incluso en dispositivos pequeños.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Addition is almost all you need: Compressing large language models with double binary factorization" (La adición es casi todo lo que necesitas: Compresión de modelos de lenguaje grandes con factorización binaria doble), publicado en Transactions on Machine Learning Research.

1. El Problema

Los Modelos de Lenguaje Grandes (LLMs) han logrado éxitos sin precedentes, pero su escala creciente impone demandas computacionales y de almacenamiento masivas, dificultando su despliegue.

Limitaciones de la cuantización actual: Las técnicas de cuantización post-entrenamiento (como QuIP#, QTIP, AQLM) logran alta compresión, pero a menudo requieren descomprimir los pesos a precisión completa para realizar multiplicaciones, lo que impide aprovechar la aceleración de hardware optimizada para aritmética de baja precisión. Además, muchas ofrecen un conjunto limitado de ratios de compresión (generalmente enteros de bits por peso).
Limitaciones de la binarización simple: Los métodos que restringen los pesos a valores binarios ( $\pm 1$ ) (como BitNet, OneBit) eliminan las costosas multiplicaciones y las reemplazan por sumas, ahorrando energía. Sin embargo, la restricción severa de cuantización ( $\pm 1$ ) suele provocar una degradación significativa en la precisión del modelo.

2. Metodología: Factorización Binaria Doble (DBF)

Los autores proponen DBF, un método que factoriza las matrices de pesos densas en el producto de dos matrices binarias (de signos) acompañadas de vectores de escala.

Formulación Matemática

En lugar de aproximar una matriz de pesos $W$ con una sola matriz binaria (como en OneBit), DBF la descompone así:
$W \approx (a \odot A_{\pm 1} \odot m^T)(B_{\pm 1} \odot b^T)$
Donde:

$A_{\pm 1}$ y $B_{\pm 1}$ son matrices de signos con elementos $\{-1, 1\}$ .
$a, m, b$ son vectores de escala en punto flotante (FP16).
$\odot$ denota el producto elemento a elemento (Hadamard).

Cálculo en la inferencia:
La operación de capa lineal $XW^T$ se transforma en una secuencia de operaciones que involucran principalmente sumas y multiplicaciones por escalares:
$XW^T \approx ((((X \odot b^T)B_{\pm 1}^T) \odot m^T)A_{\pm 1}^T) \odot a^T$
Esto permite reemplazar las multiplicaciones matriciales costosas por operaciones de adición sobre matrices binarias.

Algoritmo de Optimización

Encontrar la factorización óptima es un problema NP-duro. Los autores proponen un algoritmo heurístico basado en:

Minimización Alternada: Se alternan la optimización de los factores $A$ y $B$ manteniendo el otro fijo.
ADMM (Método de Direcciones Alternas de Multiplicadores): Se utiliza para resolver el subproblema de optimización con restricciones, proyectando iterativamente sobre el conjunto de matrices que pueden ser factorizadas como $a \odot A_{\pm 1} \odot m^T$ .
Proyección SVID: Utilizan la descomposición Sign-Value-Independent (SVID) para la proyección, calculando la aproximación de rango 1 de la magnitud de la matriz.
Importancia de Entradas y Salidas: Se incorporan normas de activación de entrada y gradientes de salida para ponderar la importancia de los pesos, similar a la poda de canales, permitiendo que los pesos más importantes tengan menor error de aproximación.

Control Granular de Compresión

A diferencia de la cuantización escalar que suele limitar los bits a enteros, DBF permite un control fino del ratio de compresión ajustando la dimensión intermedia ( $k$ ) de la factorización.

Si $k$ es pequeño, la compresión es mayor (menos bits por peso).
Esto permite ratios de compresión no uniformes y fraccionarios (ej. 1.5 bits/peso).

3. Contribuciones Clave

Algoritmo Práctico de Factorización: Un método eficiente para descomponer matrices densas en dos matrices binarias escaladas, superando a la binarización de una sola matriz.
Flexibilidad de Compresión: Capacidad de ajustar el ratio de compresión de forma continua (no solo enteros) modificando la dimensión intermedia $k$ .
Poda Iterativa No Uniforme: Propuesta de un algoritmo que trata la dimensión intermedia como canales, permitiendo podar selectivamente capas enteras basándose en criterios de importancia, logrando una distribución no uniforme de bits por capa.
Eficiencia Energética y de Velocidad: Al usar solo sumas en lugar de multiplicaciones para las matrices binarias, el método es inherentemente más eficiente energéticamente y más rápido en hardware actual.

4. Resultados Experimentales

Los autores evaluaron DBF en modelos Llama2-7B y Llama3-8B, comparándolo con métodos SOTA como AQLM, QuIP#, QTIP, Caldera, OneBit y BiLLM.

Precisión (Perplejidad y Benchmarks):
- Rango de 2 bits: DBF es competitivo con los mejores métodos de cuantización (QTIP, QuIP#) y supera a Caldera. En Llama2-7B a 2 bits, DBF+PV (PV-tuning) logra una perplejidad de 6.09, muy cercano a QTIP (6.14) y mejor que QuIP# (6.19).
- Rango de 1-1.5 bits: DBF supera significativamente a todos los métodos probados, incluyendo OneBit y BiLLM. Por ejemplo, en Llama2-7B a 1.5 bits, DBF+PV obtiene 7.01 de perplejidad frente a 7.32 de AQLM+PV.
- Benchmarks Zero-Shot: DBF mantiene un rendimiento competitivo en tareas como ARC, PiQA y Winogrande, superando a la binarización simple y acercándose a la cuantización de alta precisión.
Velocidad de Inferencia:
- Multiplicación Matriz-Vector: En una GPU RTX 4090, DBF es 2.1x a 3.5x más rápido que la base densa (FP16) con 2 bits/peso, y hasta 6.5x más rápido con 1 bit/peso.
- Throughput de Decodificación: DBF logra un aumento de velocidad de 2.0x a 2.9x en la generación de tokens (tokens/segundo) comparado con el modelo denso FP16.
Análisis de Importancia: Los experimentos muestran que DBF reduce el error de aproximación para pesos de alta importancia, algo que la cuantización escalar simple y OneBit no logran hacer tan efectivamente.

5. Significado e Impacto

El trabajo de Boža y Macko es significativo por varias razones:

Superación de la barrera de la binarización: Demuestra que es posible lograr una compresión extrema (1-2 bits) sin sacrificar drásticamente la precisión, superando a los métodos de binarización anteriores.
Eficiencia Real: A diferencia de métodos de cuantización avanzada que requieren descompresión para la inferencia, DBF mantiene la eficiencia de hardware al realizar operaciones binarias reales, ofreciendo aceleraciones de velocidad y ahorro energético reales.
Flexibilidad sin precedentes: La capacidad de ajustar el ratio de compresión de forma no entera y no uniforme permite optimizar modelos para restricciones de hardware específicas de manera más granular que nunca antes.
Viabilidad de Despliegue: Los resultados de velocidad en GPUs modernas sugieren que DBF es una solución práctica para desplegar LLMs grandes en dispositivos con recursos limitados o en entornos donde la latencia y el consumo energético son críticos.

En conclusión, DBF representa un avance importante al combinar la eficiencia computacional de las matrices binarias con la flexibilidad de la factorización de rango bajo, ofreciendo un equilibrio superior entre compresión, precisión y velocidad de inferencia.