Addition is almost all you need: Compressing large language models with double binary factorization

Este artículo presenta la Factorización Binaria Doble (DBF), un método novedoso que descompone las matrices de pesos de los modelos de lenguaje grandes en productos de matrices binarias escaladas para lograr una compresión eficiente y de alta precisión con control granular sobre las tasas de compresión.

Vladimír Boža, Vladimír Macko

Publicado 2026-03-03
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un gigante de la inteligencia artificial (como un modelo de lenguaje grande o LLM) que es increíblemente inteligente, pero también es gordo, lento y muy hambriento de energía. Para que este gigante pueda viajar en tu teléfono o en un servidor pequeño, necesitamos hacerle una "dieta" drástica sin que pierda su inteligencia.

Este paper presenta una nueva dieta llamada Factorización Binaria Doble (DBF). Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: El Gigante es demasiado pesado

Los modelos actuales son como bibliotecas gigantes llenas de libros (datos) escritos con números muy precisos (como 3.1415926...). Para leerlos, la computadora tiene que hacer multiplicaciones complejas, lo cual gasta mucha batería y tarda mucho tiempo.

Los intentos anteriores de "adelgazar" estos modelos (llamados cuantización) consistían en redondear esos números a solo 1 o 2 bits (como si solo pudieras escribir con "Sí" o "No", o con números muy simples).

  • El problema: Al hacerlo tan simple, el gigante perdía mucha inteligencia (precisión). Era como intentar pintar un cuadro de la Mona Lisa usando solo dos colores: el resultado se veía mal.

2. La Solución: La "Doble Factorización Binaria" (DBF)

Los autores proponen una idea brillante: en lugar de intentar simplificar un número gigante de una sola vez, dividámoslo en dos partes más pequeñas.

Imagina que tienes una receta secreta muy complicada (la matriz de pesos original).

  • El método antiguo: Intentar escribir la receta entera usando solo palabras de una letra (1 bit). Resultado: La receta no tiene sentido.
  • El método DBF: Dividir la receta en dos listas de instrucciones simples (dos matrices binarias) y un par de notas al margen (vectores de escala).

La analogía de la construcción:
Imagina que quieres construir un muro de ladrillos (el modelo).

  • Normalmente, usas ladrillos de todos los colores y tamaños (números complejos).
  • Con DBF, usas solo ladrillos negros y blancos (matrices binarias de +1 y -1).
  • Pero, para que el muro tenga la forma correcta, usas dos capas de estos ladrillos simples.
  • Entre las dos capas, pones unos soportes ajustables (los vectores de escala) que dicen: "Aquí el ladrillo debe ser un poco más grande" o "Aquí un poco más pequeño".

Al combinar dos capas de ladrillos simples con esos soportes, logras reconstruir la forma compleja del muro original con mucha precisión, pero usando materiales muy baratos y fáciles de manejar.

3. ¿Por qué es mejor que lo anterior?

  • Ahorro de energía (Sumas en lugar de multiplicaciones):
    Multiplicar números es como hacer una operación matemática difícil en la cabeza. Sumar es mucho más fácil. Como las matrices son solo de +1 y -1, la computadora no necesita multiplicar; solo necesita sumar o restar. Es como cambiar de conducir un coche de Fórmula 1 (complejo y caro) a andar en bicicleta (simple y eficiente). ¡El modelo se vuelve más rápido y gasta menos batería!
  • Control total del tamaño (La "perilla" mágica):
    Otros métodos te dicen: "O te quedas con 2 bits o te quedas con 3 bits". Es como tener una radio con solo dos canales.
    DBF es como una radio con un botón de volumen infinito. Puedes ajustar el tamaño de la "capa intermedia" para obtener exactamente el tamaño que quieras (1.5 bits, 2.3 bits, etc.). Esto permite un ajuste fino que otros métodos no tienen.
  • Inteligencia selectiva:
    El método sabe qué partes del modelo son más importantes (como los ojos de un rostro) y qué partes son menos importantes (como el fondo). Le da más "presupuesto" a las partes importantes para que no pierdan precisión, y comprime más las partes menos importantes.

4. Los Resultados en la vida real

Los autores probaron esto con modelos famosos (como Llama 2 y Llama 3) y descubrieron que:

  • Velocidad: El modelo comprimido con DBF es entre 2 y 3.5 veces más rápido que el original en tarjetas gráficas actuales.
  • Calidad: Mantiene una inteligencia casi idéntica al modelo original, superando a otros métodos de compresión extrema.
  • Flexibilidad: Pueden hacer el modelo tan pequeño como quieran ajustando un solo número, algo que antes era muy difícil.

En resumen

Esta investigación es como inventar un nuevo tipo de maleta de viaje. Antes, para llevar tu ropa (los datos), tenías que usar maletas pesadas de cuero o maletas de plástico rígido que solo cabían en tamaños fijos.

Con DBF, creaste una maleta de tela inteligente que puedes estirar o encoger a tu gusto. Además, en lugar de usar ruedas complejas (multiplicaciones), usa un sistema de deslizamiento simple (sumas) que hace que la maleta sea increíblemente ligera y rápida de mover, sin que se caiga ni una sola prenda de tu viaje.

Es una gran noticia para que la inteligencia artificial sea más rápida, más barata y accesible para todos, incluso en dispositivos pequeños.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →