Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo de Inteligência Artificial chamado Vision Transformer) que é incrivelmente inteligente e vê o mundo com detalhes perfeitos. O problema é que esse gênio é enorme, pesado e consome muita energia. Se você tentar colocá-lo no seu celular ou em um dispositivo pequeno, ele não cabe e a bateria acaba em minutos.

A solução comum é "comprimir" esse gênio, fazendo com que ele use menos memória e energia. Isso se chama Quantização. Mas fazer isso sem estragar a inteligência dele é como tentar espremer um elefante para entrar num carro esportivo: se você apertar demais, ele perde a forma e para de funcionar.

Este artigo apresenta uma nova maneira de fazer isso, com duas grandes inovações:

1. A "Dança em Grupo" (Quantização Conjunta)

Antes, os cientistas tentavam ajustar o gênio peça por peça. Eles olhavam para um músculo, ajustavam, depois olhavam para o outro, ajustavam. O problema é que, em modelos modernos, todas as peças estão conectadas. Ajustar uma peça isoladamente desequilibra o corpo todo, como tentar afinar uma corda de violão sem ouvir as outras.

A solução deste trabalho: Eles criaram um método onde todas as peças são ajustadas ao mesmo tempo, como um grupo de dançarinos ensaiando juntos.

Como funciona: Em vez de olhar para um bloco de cada vez, o sistema olha para a rede inteira de uma vez só. Ele aprende a "esticar" ou "encolher" os canais de informação (como ajustar o volume de cada instrumento em uma orquestra) para que, mesmo com poucos bits de informação, a música (a imagem) continue perfeita.
O resultado: Eles conseguiram comprimir o modelo para tamanhos extremamente pequenos (até 1,58 bits, o que é quase como transformar o gênio em um esboço rabiscado) sem que ele perdesse a capacidade de reconhecer coisas.

2. O "Chef de Cozinha Sem Ingredientes" (Calibração sem Dados Reais)

Normalmente, para ajustar essa compressão, você precisa mostrar milhares de fotos reais para o modelo aprender a se adaptar. Mas e se você não tiver acesso a essas fotos? (Por privacidade, por exemplo).

Antes, as pessoas tentavam usar descrições de texto simples, como "uma foto de um cachorro". O problema é que isso gera sempre a mesma coisa: um cachorro fofo em um fundo branco. É chato e não ajuda o modelo a aprender a ver cachorros na neve, na lama ou correndo.

A solução deste trabalho: Eles criaram um "Chef de Cozinha Mágico" (usando uma tecnologia chamada Stable Diffusion Turbo) que não precisa de ingredientes reais.

O Truque: Em vez de pedir apenas "uma foto de um cachorro", o sistema aprende várias "receitas" diferentes para cada classe. Ele cria prompts (instruções) que dizem: "um cachorro correndo na neve", "um cachorro dormindo no sofá", "um cachorro com óculos de sol".
A Diversidade: O sistema é treinado para garantir que essas fotos geradas sejam todas diferentes entre si, cobrindo todos os cenários possíveis. É como se o chef tivesse que criar 20 pratos diferentes para o mesmo ingrediente, para garantir que o modelo aprenda a cozinhar de verdade, e não apenas a decorar uma receita.
O Resultado: O modelo se ajusta usando apenas essas fotos geradas por IA, e funciona tão bem quanto se tivesse visto fotos reais!

Resumo da Ópera

Os autores criaram um método que:

Ajusta o modelo inteiro de uma vez, não peça por peça, garantindo que ele não "quebre" ao ser comprimido.
Não precisa de fotos reais para se ajustar, usando uma IA criativa para gerar uma biblioteca infinita de exemplos variados.

Por que isso é importante?
Isso significa que podemos colocar modelos de IA superinteligentes em celulares, relógios e carros, sem precisar de internet constante ou baterias gigantes. É como conseguir levar um supercomputador no bolso, sem que ele esquentou ou morra de fome. E o melhor: eles fizeram isso em apenas uma hora em um único computador, o que é incrivelmente rápido!

Each language version is independently generated for its own context, not a direct translation.

Título: Quantização Pós-Treinamento Conjunta de Vision Transformers com Geração de Dados Guiada por Prompts Aprendidos

1. Problema e Motivação

Os Vision Transformers (ViTs) alcançaram sucesso notável em tarefas de reconhecimento visual, mas são computacionalmente intensivos e exigem muita memória, dificultando sua implantação em dispositivos com recursos limitados (edge devices).

Desafios da Quantização: A quantização reduz o tamanho do modelo e o custo de inferência, mas métodos tradicionais de Quantização Consciente do Treinamento (QAT) exigem dados rotulados e longos ciclos de re-treinamento, o que é custoso em tempo e energia.
Limitações da Quantização Pós-Treinamento (PTQ) Atual:
- Métodos existentes para CNNs (como reconstrução bloco a bloco) falham em ViTs devido às fortes dependências inter-bloco e mecanismos de atenção complexos.
- A maioria dos métodos de PTQ para ViTs ignora correlações globais, ficando presos em objetivos de reconstrução local rígidos.
- Não há métodos de PTQ anteriores que consigam realizar quantização em bits extremamente baixos (ex: pesos ternários ou W1.58) em ViTs sem re-treinamento completo.
- A dependência de dados reais de calibração é um gargalo em cenários de privacidade ou escassez de dados.

2. Metodologia Proposta

O artigo apresenta um framework de OTQ (Optimização de Quantização Pós-Treinamento) de ponta a ponta que opera sem dados rotulados e resolve as dependências globais do modelo.

A. Otimização Conjunta de Ponta a Ponta

Diferente das abordagens sequenciais ou bloco a bloco, o método otimiza simultaneamente todos os parâmetros de quantização de todas as camadas e blocos:

Parâmetros Aprendíveis: Tamanho do passo (step size), ponto zero (zero-point), fatores de redimensionamento por canal (channel-wise rescaling) e pesos de refinamento.
Redimensionamento por Canal: Inspirado no SmoothQuant e RepQ-ViT, utiliza vetores de escala ( $\alpha$ ) e deslocamento ( $\beta$ ) para suavizar a variância das ativações entre canais antes da quantização, transferindo a dificuldade de quantização das ativações (instáveis) para os pesos (mais estáveis).
Função de Perda: Utiliza uma combinação de:
1. Reconstrução de Recursos Intermediários: Minimiza o erro quadrático médio (MSE) entre as saídas intermediárias do modelo de precisão total e do modelo quantizado.
2. Distilação KL (Kullback-Leibler): Alinha as distribuições de probabilidade das logits finais.
3. Regularização L1: Nos pesos de refinamento para evitar desvios excessivos.
Eficiência: O processo converge em cerca de 1 hora para ViT-Small em uma única GPU, sem necessidade de dados rotulados.

B. Estratégia de Calibração Livre de Dados (Data-Free)

Para eliminar a dependência de dados reais, o framework utiliza o Stable Diffusion Turbo guiado por prompts aprendidos:

Aprendizado de Prompts Multi-Modo: Em vez de usar templates manuais fixos (ex: "uma foto de "), o método aprende automaticamente múltiplas embeddings de prompts (ex: 20 tokens) para cada uma das 1.000 classes do ImageNet.
Objetivos de Otimização dos Prompts:
1. Perda de Classificação: Garante que as imagens geradas sejam classificadas corretamente pelo ViT de precisão total.
2. Regularização de Diversidade:
  - Ortogonalidade: Força os prompts a apontarem para direções distintas no espaço de embeddings.
  - Variância: Maximiza a diversidade nas imagens geradas, nos recursos do ViT e nos mapas de atenção.
Resultado: Gera amostras sintéticas semanticamente corretas, mas com variações ricas em layout, fundo e estilo, cobrindo o espaço visual de forma mais completa do que prompts manuais.

3. Principais Contribuições

Framework PTQ de Ponta a Ponta: Um método que otimiza conjuntamente todos os blocos e camadas de Transformers sem usar dados rotulados, superando as limitações de métodos baseados em reconstrução local.
Estratégia de Calibração Sintética Avançada: Introdução de uma abordagem data-free que aprende prompts multi-modais no Stable Diffusion, alcançando desempenho comparável à calibração com dados reais.
Desempenho em Bits Extremamente Baixos: É a primeira PTQ a demonstrar resultados robustos em configurações W1.58A8 (pesos ternários) e W3A3 para ViT, DeiT e Swin-T, algo não alcançado por métodos anteriores.

4. Resultados Experimentais

Os experimentos foram realizados no ImageNet-1K com modelos ViT-S/B, DeiT-S/B e Swin-S/B.

Precisão (W4A4 e W3A3): O método atinge o estado da arte (SOTA), superando métodos como RepQ-ViT, FIMA-Q e APHQ-ViT.
- Exemplo (ViT-S, W4A4): O método alcança 78.35% (com dados reais) e 77.61% (com dados sintéticos), superando o RepQ-ViT (65.05%) e o FIMA-Q (76.68%).
Desempenho em Bits Ultra-Baixos (W1.58A8):
- Métodos anteriores falharam completamente ou tiveram desempenho catastrófico (ex: FIMA-Q caiu para ~45% em ViT-B).
- O método proposto manteve alta precisão: 78.51% (ViT-B) e 78.89% (ViT-S) com dados reais, e 76.58% / 63.71% com dados sintéticos, demonstrando robustez extrema.
Escala de Dados de Calibração: O desempenho escala positivamente até cerca de 10.000 amostras, mas o método permanece eficaz mesmo com conjuntos mínimos ou totalmente sintéticos.
Análise de Prompts:
- Prompts aprendidos geraram imagens com maior diversidade semântica e visual (resolvendo ambiguidades como "kite" que pode ser pássaro ou brinquedo).
- Visualizações t-SNE mostraram que os recursos das imagens sintéticas geradas por prompts aprendidos se alinham muito melhor à distribuição dos dados reais do que os gerados por templates manuais.
- A vantagem de precisão dos prompts aprendidos sobre prompts manuais foi de +3.6% no cenário W1.58A8.

5. Significado e Impacto

Este trabalho é significativo por:

Viabilidade de Edge Deployment: Torna possível a execução de Vision Transformers complexos em dispositivos de borda com restrições severas de memória e energia, graças à quantização agressiva (até 1.58 bits).
Independência de Dados: Resolve o problema da privacidade e disponibilidade de dados, permitindo a calibração de modelos de IA apenas com sinais de classificação e geração sintética, sem expor dados reais de treinamento.
Superação de Limitações Arquiteturais: Demonstra que a otimização conjunta global é superior à reconstrução local para arquiteturas baseadas em atenção, abrindo caminho para futuras pesquisas em compressão de modelos Transformer.

Em resumo, o artigo estabelece um novo padrão para a quantização de Vision Transformers, combinando otimização global eficiente com geração de dados sintéticos de alta qualidade, permitindo a implantação prática de modelos de última geração em cenários de recursos limitados.

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

1. A "Dança em Grupo" (Quantização Conjunta)

2. O "Chef de Cozinha Sem Ingredientes" (Calibração sem Dados Reais)

Resumo da Ópera

Título: Quantização Pós-Treinamento Conjunta de Vision Transformers com Geração de Dados Guiada por Prompts Aprendidos

1. Problema e Motivação

2. Metodologia Proposta

A. Otimização Conjunta de Ponta a Ponta

B. Estratégia de Calibração Livre de Dados (Data-Free)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation