FreeAct: Freeing Activations for LLM Quantization

O artigo apresenta o FreeAct, um novo framework de quantização para Modelos de Linguagem de Grande Escala que supera as limitações das transformações estáticas ao utilizar matrizes de transformação específicas para cada tipo de token, adaptando-se dinamicamente às disparidades nas ativações e melhorando significativamente o desempenho em modelos multimodais e de difusão.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante da inteligência artificial (um Modelo de Linguagem Grande, ou LLM) que é incrivelmente inteligente, mas também é muito "gordo" e pesado. Ele ocupa tanto espaço na memória do seu computador que é difícil rodá-lo em celulares ou servidores comuns.

Para resolver isso, os cientistas usam uma técnica chamada Quantização. Pense nisso como tentar encaixar um elefante gigante dentro de um carro compacto. Você precisa "espremer" o elefante, reduzindo o tamanho de cada parte dele (os dados) para que caiba no carro, sem que ele perca a capacidade de pensar.

O problema é que, ao espremer o elefante, ele pode ficar deformado e parar de funcionar direito.

O Problema: A "Moldura Rígida"

Até agora, a maneira de fazer isso era usar uma moldura rígida. Imagine que você tem uma foto de um elefante e uma foto de uma girafa. A técnica antiga dizia: "Vamos usar a mesma moldura quadrada para as duas fotos".

  • Se a foto do elefante for muito larga, a moldura corta as orelhas.
  • Se a foto da girafa for muito alta, a moldura corta o pescoço.

No mundo dos modelos de IA, isso acontece porque o modelo lida com tipos diferentes de informações que se comportam de maneiras diferentes:

  1. Textos vs. Imagens: Em modelos multimodais, as palavras e as imagens têm "formatos" de dados diferentes.
  2. Palavras Escondidas vs. Visíveis: Em modelos de difusão (que geram texto como se estivessem desenhando), algumas palavras são "máscaras" (escondidas) e outras já estão visíveis. Elas têm comportamentos diferentes.

A técnica antiga tentava forçar tudo a se encaixar na mesma moldura (uma transformação "um para um"), o que causava erros e fazia o modelo ficar burro ou alucinado.

A Solução: O "FreeAct" (Ação Livre)

Os autores do artigo propõem o FreeAct. A ideia é simples, mas genial: Pare de usar a mesma moldura para tudo.

Em vez de uma moldura rígida que tenta servir para todos, o FreeAct cria molduras dinâmicas e personalizadas.

A Analogia do Guarda-Roupa Inteligente

Imagine que o modelo de IA é um guarda-roupa cheio de roupas.

  • O Peso (Weights): São as prateleiras do guarda-roupa. Elas são fixas e não mudam.
  • As Ativações (Activations): São as roupas que você tira do armário. Algumas são casacos pesados (imagens), outras são camisetas leves (texto), e algumas são meias que você ainda não viu (máscaras).

O jeito antigo (QuaRot, FlatQuant): Tentava dobrar todas as roupas (casacos, camisetas, meias) exatamente da mesma maneira para caber na mesma caixa. O resultado? As roupas ficavam amassadas e estragadas.

O jeito novo (FreeAct):

  1. Identificação: O FreeAct olha para a roupa e diz: "Isso é uma imagem, isso é um texto, isso é uma máscara".
  2. Alocação Dinâmica: Ele pega uma caixa especial para imagens e uma caixa especial para textos.
  3. A Mágica: Ele usa uma técnica matemática inteligente (baseada em "subespaços") para garantir que, mesmo usando caixas diferentes, a roupa ainda caiba perfeitamente e, quando você tirar da caixa, ela esteja exatamente como era antes, sem amassados.

Por que isso é tão bom?

  1. Flexibilidade: O FreeAct entende que o mundo não é uniforme. Ele trata cada tipo de dado com o respeito e a "moldura" que ele precisa.
  2. Economia de Espaço: Ao usar molduras personalizadas, ele consegue espremer o modelo para tamanhos muito menores (como 4 bits, que é extremamente compacto) sem perder a inteligência.
  3. Resultados: Nos testes, o FreeAct conseguiu fazer modelos que antes falhavam completamente (dizendo coisas sem sentido) voltarem a funcionar perfeitamente, com uma melhoria de até 5,3% em comparação aos melhores métodos existentes.

Resumo em uma frase

O FreeAct é como um alfaiate inteligente que, em vez de usar um único modelo de terno para todos, mede cada cliente (cada tipo de dado) individualmente e cria um terno sob medida, permitindo que o gigante da IA caiba em um carro pequeno sem perder sua elegância ou inteligência.

Isso abre as portas para rodar modelos de IA superpoderosos em dispositivos que hoje nem imaginam suportá-los!