Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Este trabalho apresenta um framework de quantização pós-treinamento conjunta para Vision Transformers que, sem utilizar dados rotulados, otimiza todas as camadas simultaneamente e emprega uma estratégia de geração de dados livre de rótulos guiada por prompts aprendidos via Stable Diffusion Turbo, alcançando resultados state-of-the-art em configurações de baixo bit e superando métodos anteriores.

Shile Li, Markus Karmann, Onay Urfalioglu

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo de Inteligência Artificial chamado Vision Transformer) que é incrivelmente inteligente e vê o mundo com detalhes perfeitos. O problema é que esse gênio é enorme, pesado e consome muita energia. Se você tentar colocá-lo no seu celular ou em um dispositivo pequeno, ele não cabe e a bateria acaba em minutos.

A solução comum é "comprimir" esse gênio, fazendo com que ele use menos memória e energia. Isso se chama Quantização. Mas fazer isso sem estragar a inteligência dele é como tentar espremer um elefante para entrar num carro esportivo: se você apertar demais, ele perde a forma e para de funcionar.

Este artigo apresenta uma nova maneira de fazer isso, com duas grandes inovações:

1. A "Dança em Grupo" (Quantização Conjunta)

Antes, os cientistas tentavam ajustar o gênio peça por peça. Eles olhavam para um músculo, ajustavam, depois olhavam para o outro, ajustavam. O problema é que, em modelos modernos, todas as peças estão conectadas. Ajustar uma peça isoladamente desequilibra o corpo todo, como tentar afinar uma corda de violão sem ouvir as outras.

A solução deste trabalho: Eles criaram um método onde todas as peças são ajustadas ao mesmo tempo, como um grupo de dançarinos ensaiando juntos.

  • Como funciona: Em vez de olhar para um bloco de cada vez, o sistema olha para a rede inteira de uma vez só. Ele aprende a "esticar" ou "encolher" os canais de informação (como ajustar o volume de cada instrumento em uma orquestra) para que, mesmo com poucos bits de informação, a música (a imagem) continue perfeita.
  • O resultado: Eles conseguiram comprimir o modelo para tamanhos extremamente pequenos (até 1,58 bits, o que é quase como transformar o gênio em um esboço rabiscado) sem que ele perdesse a capacidade de reconhecer coisas.

2. O "Chef de Cozinha Sem Ingredientes" (Calibração sem Dados Reais)

Normalmente, para ajustar essa compressão, você precisa mostrar milhares de fotos reais para o modelo aprender a se adaptar. Mas e se você não tiver acesso a essas fotos? (Por privacidade, por exemplo).

Antes, as pessoas tentavam usar descrições de texto simples, como "uma foto de um cachorro". O problema é que isso gera sempre a mesma coisa: um cachorro fofo em um fundo branco. É chato e não ajuda o modelo a aprender a ver cachorros na neve, na lama ou correndo.

A solução deste trabalho: Eles criaram um "Chef de Cozinha Mágico" (usando uma tecnologia chamada Stable Diffusion Turbo) que não precisa de ingredientes reais.

  • O Truque: Em vez de pedir apenas "uma foto de um cachorro", o sistema aprende várias "receitas" diferentes para cada classe. Ele cria prompts (instruções) que dizem: "um cachorro correndo na neve", "um cachorro dormindo no sofá", "um cachorro com óculos de sol".
  • A Diversidade: O sistema é treinado para garantir que essas fotos geradas sejam todas diferentes entre si, cobrindo todos os cenários possíveis. É como se o chef tivesse que criar 20 pratos diferentes para o mesmo ingrediente, para garantir que o modelo aprenda a cozinhar de verdade, e não apenas a decorar uma receita.
  • O Resultado: O modelo se ajusta usando apenas essas fotos geradas por IA, e funciona tão bem quanto se tivesse visto fotos reais!

Resumo da Ópera

Os autores criaram um método que:

  1. Ajusta o modelo inteiro de uma vez, não peça por peça, garantindo que ele não "quebre" ao ser comprimido.
  2. Não precisa de fotos reais para se ajustar, usando uma IA criativa para gerar uma biblioteca infinita de exemplos variados.

Por que isso é importante?
Isso significa que podemos colocar modelos de IA superinteligentes em celulares, relógios e carros, sem precisar de internet constante ou baterias gigantes. É como conseguir levar um supercomputador no bolso, sem que ele esquentou ou morra de fome. E o melhor: eles fizeram isso em apenas uma hora em um único computador, o que é incrivelmente rápido!

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →