Addition is almost all you need: Compressing large language models with double binary factorization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante da inteligência artificial (um Modelo de Linguagem Grande, ou LLM) que é incrivelmente inteligente, mas também é um "glutão" de recursos. Ele precisa de computadores superpotentes e muita energia para funcionar, o que torna difícil colocá-lo no seu celular ou em servidores baratos.

Os cientistas tentam "emagrecer" esse gigante. A ideia comum é transformar os números pesados que compõem a inteligência do modelo em números simples (como apenas 1 e 0), trocando multiplicações complexas por somas simples. É como trocar um cozinheiro que usa uma batedeira industrial por alguém que usa apenas uma colher de pau.

Mas há um problema: quando você simplifica demais (usando apenas 1 e 0), o gigante perde a memória e começa a falar besteira. A qualidade cai muito.

É aqui que entra o DBF (Fatoração Binária Dupla), a nova técnica apresentada neste artigo. Vamos explicar como funciona usando uma analogia simples.

A Analogia do "Quebra-Cabeça de Dois Camadas"

Imagine que a inteligência do modelo é um mapa gigante e detalhado (uma matriz de pesos).

O Método Antigo (Binário Simples):
Antigamente, tentavam cobrir esse mapa com apenas duas cores: Preto e Branco.
- Problema: O mapa perde muitos detalhes. Uma montanha que era cinza agora é preta ou branca, e o mapa fica irreconhecível. A precisão cai.
O Método DBF (Fatoração Binária Dupla):
Os autores disseram: "E se, em vez de pintar o mapa inteiro de preto e branco, nós o dividirmos em dois mapas menores que, quando sobrepostos, reconstituem a imagem original?"
- A Ideia: Eles pegam o mapa gigante e o dividem em dois mapas menores, cada um feito apenas de Preto e Branco (matrizes binárias).
- O Segredo: Entre esses dois mapas, eles colocam "ajustadores" (vetores de escala). Pense neles como lupas ou filtros de brilho.
- Como funciona:
  - O primeiro mapa preto-e-branco diz "onde" estão as coisas.
  - O segundo mapa preto-e-branco diz "como" elas se conectam.
  - As lupas (vetores) dizem "quão forte" é cada parte.
- O Resultado: Quando você multiplica (ou, neste caso, soma) esses dois mapas simples com as lupas, você consegue reconstruir o mapa original com uma precisão impressionante, quase como se fosse o original!

Por que isso é genial? (As Vantagens)

Aqui estão os benefícios dessa "mágica" explicados de forma simples:

Economia de Energia (O "Só Soma"): Computadores gastam muita energia para multiplicar números. Somar é muito mais barato (como somar 1+1 é mais fácil que multiplicar 100x100). Como o DBF usa apenas mapas de preto e branco, o computador pode substituir as multiplicações caras por somas baratas. É como trocar um carro de Fórmula 1 (que bebe muito) por uma bicicleta elétrica (que é leve e eficiente).
Controle Fino (O "Botão de Volume"): A maioria das técnicas de compressão é rígida. Você tem que escolher: "Quero 2 bits" ou "Quero 3 bits". É como ter um interruptor de luz que só tem "ligado" ou "desligado".
- O DBF é como um dimmer de luz. Você pode ajustar o tamanho dos mapas intermediários para ter exatamente a quantidade de compressão que quer (1,2 bits, 1,5 bits, 2,3 bits, etc.). Você pode "afinar" o modelo para caber em qualquer dispositivo.
Inteligente na Hora de Cortar: O método sabe quais partes do modelo são mais importantes. Se uma parte do cérebro do modelo é crucial para entender matemática, o DBF garante que essa parte seja preservada com mais cuidado, cortando apenas o que é menos importante.

Os Resultados na Prática

Os autores testaram isso em modelos famosos (como o Llama 2 e Llama 3) e descobriram:

Qualidade: Em níveis de compressão de cerca de 2 bits (muito compacto), o DBF compete de igual para igual com as melhores técnicas do mundo, mantendo a inteligência do modelo quase intacta.
Velocidade: Em computadores comuns (como uma placa de vídeo RTX 4090), o modelo comprimido com DBF ficou 2 a 3,5 vezes mais rápido do que o modelo original.
Eficiência: Para compressões extremas (1 bit), o DBF é muito superior aos métodos antigos, mantendo o modelo útil onde outros falhavam.

Conclusão

O DBF é como uma técnica de "origami digital". Em vez de jogar fora pedaços do papel (o que estraga a figura), você dobra o papel de uma maneira inteligente (usando duas camadas de dobras simples) para que ele fique pequeno, leve e fácil de carregar, mas ainda mantenha a forma perfeita da figura original.

Isso significa que, em breve, poderemos ter modelos de inteligência artificial superinteligentes rodando em nossos celulares, gastando pouca bateria e respondendo rápido, sem precisar de data centers gigantes. É um passo gigante para democratizar a IA.

Each language version is independently generated for its own context, not a direct translation.

Título: Adição é quase tudo o que você precisa: Comprimindo grandes modelos de linguagem com fatorização binária dupla

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) alcançaram sucesso sem precedentes, mas seu crescimento em escala impõe demandas computacionais e de armazenamento proibitivas para implantação.

Limitações da Quantização Atual: Métodos de quantização pós-treinamento (como GPTQ, QuIP#, QTIP) reduzem o tamanho, mas frequentemente exigem a descompressão dos pesos para precisão total durante a inferência, impedindo o uso de aceleração de hardware otimizada para aritmética de baixa precisão. Além disso, a maioria oferece apenas escolhas limitadas de taxas de compressão (geralmente inteiros de bits por peso).
Limitações da Binarização Simples: Abordagens que usam apenas matrizes binárias (valores $\pm 1$ ) substituem multiplicações custosas por adições, economizando energia. No entanto, a restrição severa de quantização ( $\pm 1$ ) geralmente leva a uma degradação significativa na precisão do modelo.
Fatorização de Baixo RANK: Fatorizações tradicionais (como SVD) sofrem com degradação de precisão quando aplicadas diretamente a matrizes densas de LLMs.

2. Metodologia: Fatorização Binária Dupla (DBF)

Os autores propõem a Double Binary Factorization (DBF), um método que decompõe cada matriz de pesos densa $W$ ( $n \times m$ ) no produto de duas matrizes binárias (de sinais) escalonadas por vetores.

A aproximação é definida como:
$W \approx (a \odot A_{\pm 1} \odot m^T)(B_{\pm 1} \odot b^T)$
Onde:

$A_{\pm 1}$ e $B_{\pm 1}$ são matrizes de sinais com elementos $\{-1, 1\}$ .
$a, m, b$ são vetores de escala em ponto flutuante (FP16).
$\odot$ denota o produto elemento a elemento (Hadamard).

Algoritmo de Computação:

Otimização: O problema de encontrar a fatorização ótima é NP-difícil. Os autores propõem um algoritmo heurístico baseado em minimização alternada utilizando o Método de Direção Alternada de Multiplicadores (ADMM).
Projeção: Utiliza a decomposição SVID (Sign-Value-Independent Decomposition) do OneBit como uma projeção dentro do ADMM para manter a estrutura binária.
Importância dos Pesos: O algoritmo incorpora a importância das entradas (norma da ativação) e saídas (norma do gradiente) para atribuir menor erro a pesos mais importantes, similar a uma aproximação de rank-1 da matriz de Fisher.
Controle de Granularidade: A dimensão intermediária $k$ (tamanho do vetor $m$ e das dimensões internas das matrizes binárias) controla a taxa de compressão. Isso permite taxas de compressão contínuas e não inteiras (ex: 1.5 bits/peso), ao contrário de métodos de quantização escalar.

Inferência:
Durante a passagem frontal, a multiplicação de matrizes densas é substituída por uma sequência de operações que envolvem apenas adições e multiplicações por escalares (vetores), eliminando multiplicações de matriz densa.

3. Principais Contribuições

Novo Paradigma de Compressão: Introdução da DBF, que combina a eficiência energética da binarização com a flexibilidade de taxas de compressão ajustáveis via fatorização.
Algoritmo Prático: Desenvolvimento de um algoritmo heurístico baseado em ADMM para calcular a fatorização binária dupla de forma eficiente.
Compressão Não Uniforme: Proposição de um algoritmo iterativo para atribuir diferentes taxas de compressão a cada camada do modelo. Trata-se a dimensão intermediária como "canais" e aplica critérios de pruning (poda) baseados em importância para reduzir a dimensão $k$ em camadas menos críticas.
Aceleração de Hardware: Demonstração de que a DBF é viável em GPUs atuais, oferecendo acelerações significativas ao substituir multiplicações por adições.

4. Resultados Experimentais

Os experimentos foram realizados nos modelos Llama2-7B e Llama3-8B, comparando a DBF com métodos state-of-the-art (AQLM, QuIP#, QTIP, Caldera, OneBit, BiLLM).

Precisão (Perplexidade e Zero-Shot):
- Faixa de 1-1.5 bits: A DBF supera significativamente todos os outros métodos, incluindo o OneBit e o BiLLM.
- Faixa de 2-2.3 bits: A DBF é competitiva com os melhores métodos de quantização (como QTIP e AQLM com PV-tuning), mantendo uma precisão muito próxima dos modelos densos originais.
- Fine-tuning: O uso de PV-tuning (ajuste fino de parâmetros discretos e contínuos) melhora ainda mais os resultados, especialmente em baixas taxas de bits.
Velocidade de Inferência:
- Em matrizes típicas de LLMs (ex: $4096 \times 4096$ ), a DBF é 2x a 3.5x mais rápida que a base densa (FP16) na faixa de 2 bits/peso.
- Na faixa de 1 bit/peso, a aceleração chega a 3x a 6.5x.
- No throughput de decodificação (tokens/segundo), a DBF oferece um ganho de 2.0x a 2.9x em GPUs RTX 4090.
Flexibilidade:
- A DBF permite taxas de compressão não inteiras (ex: 1.5 bits), algo difícil de alcançar com quantização escalar padrão.
- A compressão não uniforme (ajustando $k$ por camada) reduziu a perplexidade do Llama3-8B de 7.30 para 7.26 em uma única iteração de redistribuição.

5. Significância e Conclusão

O trabalho demonstra que a adição (substituindo a multiplicação) é uma ferramenta poderosa para a compressão de LLMs, desde que combinada com uma fatorização inteligente.

Eficiência Energética: Ao eliminar multiplicações de ponto flutuante, a DBF promete economias energéticas massivas, especialmente com suporte de hardware futuro otimizado para operações binárias.
Flexibilidade de Implantação: A capacidade de ajustar finamente a taxa de compressão por camada e por modelo permite um equilíbrio ideal entre tamanho, velocidade e precisão, superando as limitações rígidas da quantização de inteiros.
Viabilidade Prática: Os resultados mostram que é possível obter modelos comprimidos com alta precisão que são simultaneamente mais rápidos e energeticamente eficientes em hardware comercial atual.

O código está disponível publicamente, facilitando a adoção e o desenvolvimento futuro de técnicas de compressão baseadas em fatorização binária.

Addition is almost all you need: Compressing large language models with double binary factorization

A Analogia do "Quebra-Cabeça de Dois Camadas"

Por que isso é genial? (As Vantagens)

Os Resultados na Prática

Conclusão

Título: Adição é quase tudo o que você precisa: Comprimindo grandes modelos de linguagem com fatorização binária dupla

1. O Problema

2. Metodologia: Fatorização Binária Dupla (DBF)

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes