Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cérebro digital gigante (uma Rede Neural) que é incrivelmente inteligente, mas também muito "gordo" e pesado. Para rodar esse cérebro em um celular antigo ou em um dispositivo pequeno, precisamos "emagrecê-lo" sem perder a inteligência.

Esse processo de emagrecimento é chamado de Quantização. A ideia é reduzir o tamanho dos números que o cérebro usa (de 32 bits para, digamos, 4 ou 8 bits).

O Problema: O "Dilema do Sastre"

Até hoje, para fazer isso sem estragar o cérebro, os especialistas precisavam de duas coisas difíceis:

Muito tempo e dinheiro: Treinar o cérebro de novo do zero para ver onde cortar (como um sastre medindo cada centímetro com uma régua de ouro).
Receitas manuais: Especialistas humanos criavam "regras" (como "se a camada for complexa, use 8 bits; se for simples, use 4"). Mas criar essas regras é chato, demorado e muitas vezes falha em novos tipos de cérebros.

É como tentar encaixar um terno sob medida em uma pessoa que nunca viu o modelo antes, apenas chutando o tamanho.

A Solução: O "Detetive IA" (TAP)

Os autores deste papel criaram uma nova ferramenta chamada TAP (Automatic Proxy Discovery via Large Language Models). Pense no TAP como um Detetive Inteligente que não precisa de treino, apenas de uma boa conversa.

Aqui está como funciona, usando analogias simples:

1. O Grande Arquiteto (LLM)

Em vez de um humano chutando regras, eles usam uma Inteligência Artificial de Linguagem (como o ChatGPT, mas mais avançado).

A Analogia: Imagine que você pede a um arquiteto genial: "Crie uma regra para decidir onde colocar tijolos de ouro (bits) e onde usar tijolos comuns em uma casa, para que ela seja forte mas leve."
O TAP pede isso para a IA, que gera várias ideias (códigos e explicações) sobre como fazer essa medição.

2. A Arena de Testes (Evolução)

A IA não acerta de primeira. Então, o TAP cria uma "arena de testes":

A IA gera 100 ideias diferentes de regras.
Elas são testadas rapidamente em um pequeno conjunto de fotos (apenas 16 imagens, muito pouco!).
As regras que funcionam mal são descartadas. As que funcionam bem são mantidas.

3. O Treinador Sem Palco (DPO)

Aqui está a mágica. Normalmente, para melhorar uma IA, você precisa "treiná-la" por dias, gastando muita energia. O TAP faz algo diferente:

Ele usa um Treinador Inteligente (DPO) que não muda o cérebro do Arquiteto (a IA principal).
Em vez disso, o Treinador olha para as ideias que funcionaram e diz: "Ei, na próxima rodada, peça mais ideias desse tipo e menos daquele tipo que falhou."
É como um maestro que não toca os instrumentos, mas apenas ajusta quem deve tocar mais alto e quem deve tocar mais baixo para a música ficar perfeita. Isso acontece em segundos, sem reescrever o código da IA.

Por que isso é revolucionário?

Sem "Sweat" (Suor): Não precisa de especialistas humanos gastando meses criando regras. A IA descobre as regras sozinha.
Super Rápido: Enquanto os métodos antigos levavam dias de computação e milhares de imagens para calibrar, o TAP faz isso em minutos com apenas 16 imagens.
Funciona em Tudo: Funciona em redes neurais simples (como as de reconhecimento de gatos) e em redes gigantes (como as que geram imagens ou dirigem carros), sem precisar ser refeito para cada novo modelo.

O Resultado Final

O TAP é como ter um sastre mágico que, ao ver apenas uma foto da pessoa, cria instantaneamente o terno perfeito, sem precisar de fita métrica, sem precisar de horas de costura e sem precisar de um mestre sastre ao lado.

O papel mostra que essa nova abordagem consegue manter a inteligência do cérebro digital quase intacta (perdendo menos de 2% de precisão), mas reduzindo drasticamente o tamanho e o custo de energia, tudo isso de forma automática e gratuita. É um passo gigante para colocar inteligência artificial poderosa em qualquer dispositivo do seu bolso.

Each language version is independently generated for its own context, not a direct translation.

Título: Revolucionando a Quantização de Precisão Mista: Rumo à Descoberta Automática de Proxies sem Treinamento via Grandes Modelos de Linguagem

1. O Problema

A Quantização de Precisão Mista (MPQ) é uma técnica essencial para liberar Redes Neurais Profundas (DNNs) do gargalo de memória (OOM) em dispositivos com recursos limitados (como MCUs e NPUs), ajustando a largura de bits de cada camada conforme sua sensibilidade.

No entanto, os métodos existentes enfrentam dois desafios principais:

Dependência de Especialistas e Heurísticas Manuais: Métodos sem treinamento (training-free) atuais, como HAWQ e OMPQ, dependem de proxies (indicadores de sensibilidade) projetados manualmente por especialistas (ex: análise de matrizes Hessianas ou estatísticas de pesos/ativações). Isso é trabalhoso, difícil de adaptar a novas arquiteturas e requer conhecimento profundo.
Custo de Calibração e Convergência Lenta: Mesmo métodos sem treinamento exigem grandes conjuntos de dados de calibração (ex: HAWQ-V2 precisa de 8.192 amostras e 50 iterações) e muitas atualizações, tornando-os ineficientes e instáveis.

Métodos baseados em otimização diferenciável são precisos, mas computacionalmente caros e impraticáveis para implantação real. Surge a necessidade de uma alternativa escalável que não dependa de especialistas humanos nem de treinamento extensivo.

2. Metodologia: O Framework TAP

Os autores propõem o TAP (Training-free Automatic Proxy), um framework inovador que utiliza Grandes Modelos de Linguagem (LLMs) e estratégias de busca evolutiva para descobrir automaticamente proxies de MPQ sem treinamento.

O sistema é composto por três componentes principais:

Gerador de Candidatos de Proxy:
- O LLM atua como um gerador que sintetiza novos proxies ou otimiza os existentes.
- Cada proxy gerado é representado por um par $(T, C)$ : uma lógica de raciocínio em linguagem natural ( $T$ ) e código executável ( $C$ ) que calcula escores de sensibilidade para canais de camadas convolucionais e lineares.
- O LLM opera em um espaço de busca implícito, guiado por prompts que definem operações de Inicialização, Mutação e Cruzamento (Crossover).
Avaliador de Aptidão (Fitness Evaluator):
- Avalia a qualidade de cada proxy candidato calculando a correlação de Spearman entre os escores de sensibilidade previstos pelo proxy e o erro real de quantização em benchmarks (ex: ImageNet-1k).
- Combina essa métrica com a acurácia Top-1 do modelo quantizado resultante para gerar uma pontuação de aptidão ( $\phi$ ).
Agendador de Evolução Baseado em DPO (Direct Preference Optimization):
- Esta é a inovação central. Para superar a instabilidade de prompts simples, o TAP introduz um controlador de estratégia leve baseado em DPO.
- Mecanismo: O controlador não ajusta os parâmetros do LLM (que permanecem congelados). Em vez disso, ele reatribui dinamicamente as probabilidades de seleção de três modelos de prompt (templates) com base nos sinais de aptidão (fitness).
- Se um tipo de prompt gera proxies com melhor desempenho, sua probabilidade de ser escolhido nas próximas gerações aumenta. Isso cria um loop de feedback orientado pela tarefa, refinando a geração de proxies iterativamente.

3. Contribuições Principais

Novo Paradigma de Design: O TAP é o primeiro framework a utilizar LLMs para descobrir automaticamente proxies de quantização de precisão mista, eliminando a necessidade de regras heurísticas manuais.
DPO como Seletor de Templates: A introdução de um controlador baseado em DPO que otimiza a seleção de estratégias de prompt sem fine-tuning do LLM, garantindo raciocínio mais confiável e estabilidade na geração.
Validação Empírica Abrangente: Demonstração de que o TAP supera os proxies projetados por especialistas em diversos benchmarks, com custos de calibração drasticamente reduzidos.

4. Resultados Experimentais

Os experimentos foram realizados em arquiteturas padrão (ResNet-18/50, MobileNetV2, ViT, DeiT, Swin) e benchmarks (CIFAR-10, ImageNet-1k, etc.).

Desempenho Superior:
- No ResNet-18 (ImageNet), o TAP alcançou 72,63% de acurácia Top-1, superando métodos sem treinamento como EMQ (72,28%) e OMPQ (72,08%).
- No ResNet-50, alcançou 76,72%, superando EMQ e OMPQ.
- Em modelos Transformer (ViT-B, DeiT-B, Swin-B), o TAP obteve os melhores resultados ou resultados comparáveis, mantendo alta taxa de compressão.
Eficiência e Generalização:
- Calibração Mínima: O TAP requer apenas 16 amostras de calibração e 5 iterações para convergir, comparado a milhares de amostras e iterações de métodos anteriores.
- Generalização "Plug-and-Play": Políticas de quantização buscadas no pequeno conjunto CIFAR-10 foram transferidas diretamente para ImageNet-1k sem retreinamento, mantendo a liderança em acurácia.
- Velocidade: O processo de geração do proxy e alocação de bits leva menos de 0,1 segundos (média de 0,0133s para geração e 0,0645s para alocação).
Robustez: Estudos de ablação mostraram que o framework é robusto a variações no hiperparâmetro $\alpha$ , ao tamanho da população evolutiva e à aleatoriedade das amostras de calibração. Funciona consistentemente com diferentes LLMs (Deepseek, Qwen3, Grok).

5. Significado e Impacto

O trabalho TAP representa uma mudança de paradigma na comunidade de quantização de modelos:

Democratização: Remove a barreira de entrada de exigir conhecimento especializado para projetar heurísticas de quantização.
Eficiência: Reduz drasticamente o custo computacional e de dados necessários para encontrar políticas de quantização ótimas.
Futuro: Abre caminho para o uso de LLMs não apenas como geradores de texto, mas como agentes de descoberta de algoritmos e otimização de sistemas de aprendizado de máquina, oferecendo uma perspectiva escalável e automatizada para o design de algoritmos de compressão.

Em resumo, o TAP demonstra que LLMs, quando guiados por mecanismos de feedback evolutivo (DPO), podem superar a engenharia manual de proxies, entregando soluções de quantização de precisão mista que são simultaneamente mais precisas, mais rápidas de encontrar e mais adaptáveis.