QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

O artigo apresenta o QFT, um framework de ajuste fino de parâmetros completos para LLMs que utiliza quantização INT8 e otimizações específicas, como o otimizador Lion e um quantizador híbrido, permitindo o treinamento eficiente em GPUs de recursos limitados com redução drástica de memória e desempenho comparável ao método padrão.

Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt Keutzer

Publicado 2026-03-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um Modelo de Linguagem Grande, ou LLM) que sabe responder a quase tudo, mas ele é um pouco "cansado" e precisa de um pouco de treino para se tornar especialista no que você quer (como escrever poemas, programar ou dar conselhos).

O problema é que, para treinar esse gênio, você precisa de uma fábrica de energia gigante (GPUs de alto custo). A maioria das pessoas não tem essa fábrica. As soluções atuais tentam "pintar apenas uma parte do gênio" (ajustando poucos parâmetros), mas isso limita o quanto ele pode aprender.

Aqui entra o QFT (Tuning de Parâmetros Completos Quantizados), o herói desta história.

A Grande Ideia: O "Mochileiro Inteligente"

Pense no treinamento de uma IA como uma viagem de mochila.

  • O Método Antigo (FP32): Você leva tudo em caixas de vidro pesadas e frágeis. Você precisa de um caminhão enorme (memória de GPU) para carregar: os pesos do modelo, os gradientes (o que ele aprendeu) e o estado do otimizador (sua memória de longo prazo). Para um modelo de 7 bilhões de parâmetros, você precisa de um caminhão de 104 GB. Isso é caro e difícil de encontrar.
  • O QFT: O QFT diz: "Vamos trocar essas caixas de vidro por caixas de papelão leves e compactas".

O QFT faz três coisas mágicas para conseguir isso:

1. A "Moeda de Ouro" vs. "Moeda de Cobre" (Otimizador Lion)

Normalmente, para atualizar a IA, usamos um sistema complexo que guarda duas memórias para cada passo (como guardar o valor exato e uma média). Isso ocupa muito espaço.
O QFT usa um otimizador chamado Lion.

  • Analogia: Imagine que você está aprendendo a andar de bicicleta. O método antigo guarda um mapa detalhado de cada pedra e um registro de velocidade (ocupa muito espaço). O Lion é como um ciclista que só olha para a direção (para onde a seta aponta) e não se importa com o tamanho exato do passo.
  • O Truque: O QFT prova matematicamente que, mesmo que você arredonde esses "passos" para números inteiros simples (como moedas de cobre em vez de ouro), a bicicleta ainda vai na direção certa. Isso permite guardar tudo em formato INT8 (8 bits), economizando 75% de espaço apenas nos dados de atualização.

2. O "Filtro de Ouro" (Quantizador de Recursos Híbrido)

Os "pesos" da IA (seu conhecimento) têm um problema: a maioria é normal, mas alguns poucos números são gigantes (outliers). Se você tentar comprimir tudo junto, esses gigantes estouram a caixa.

  • Analogia: Imagine que você tem uma mala cheia de roupas (a maioria é normal), mas tem 3 pares de sapatos de ouro super pesados. Se você tentar colocar tudo em uma mala pequena, ela explode.
  • A Solução do QFT: Ele separa a mala. Ele guarda os 99% das roupas normais em caixas compactas (quantizadas). Os 1% de sapatos de ouro (os dados críticos) ele guarda em uma bolsinha especial separada.
  • Resultado: A mala fica leve, mas você não perde os sapatos de ouro. Diferente de outros métodos que precisam de uma "cópia de segurança" pesada (em ponto flutuante), o QFT não precisa disso.

3. A "Fita de Memória" (Fluxo de Gradiente em Pilha)

Para treinar, a IA precisa lembrar o que aconteceu no passado para corrigir erros. Normalmente, isso exige guardar tudo em memória de alta precisão.

  • Analogia: O QFT cria uma fita de memória inteligente (uma pilha). Em vez de guardar tudo espalhado, ele empilha os dados de trás para frente e os retira na ordem certa, tudo em formato inteiro. É como ler um livro de trás para frente sem precisar de uma biblioteca inteira, apenas uma estante pequena.

O Resultado Final: O "Gênio na Sala de Estar"

Graças a essas técnicas, o QFT consegue reduzir a memória necessária para treinar um modelo gigante (como o LLaMA-7B) de 104 GB para apenas 25 GB.

  • Antes: Você precisava de um servidor de data center com várias placas de vídeo caríssimas.
  • Agora: Você pode treinar esse modelo em uma única placa de vídeo de consumidor (como uma NVIDIA A6000), que cabe em uma mesa comum.

Em resumo: O QFT é como transformar uma viagem de caminhão de carga em uma viagem de bicicleta leve. Você não perde a capacidade de chegar ao destino (a qualidade do modelo é quase a mesma do método pesado), mas consegue fazer a viagem com recursos que qualquer pessoa pode ter em casa.