Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang, Mingzhuo Wei, Bochen Lin, Hongbin Sun

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um modelo de Inteligência Artificial gigante) que consegue ver fotos e entender o que você diz, respondendo a perguntas complexas. Esse gênio é incrível, mas é tão grande e pesado que não cabe no seu celular ou no seu computador comum. Ele precisa de uma sala de servidores gigante para funcionar.

Para resolver isso, os cientistas usam uma técnica chamada "Quantização". É como se você pegasse esse gênio gigante e tentasse comprimi-lo em uma mala de mão pequena, cortando detalhes desnecessários para economizar espaço.

O problema é que, ao fazer essa "mala", você acaba jogando fora informações importantes. O gênio fica um pouco confuso, esquece detalhes da foto ou entende errado o que você disse. Métodos antigos tentavam consertar isso de forma genérica, como se todos os erros fossem iguais.

Aqui entra o Quant Experts (QE), a nova solução proposta pelos pesquisadores da Universidade Jiaotong, em Xi'an. Vamos entender como funciona com uma analogia simples:

O Problema: Nem Todo Erro é Igual

Imagine que o gênio está analisando uma foto de um cachorro e depois uma foto de um carro.

  • Para o cachorro, ele precisa prestar atenção muito detalhada nas orelhas e no focinho (canais importantes).
  • Para o carro, ele precisa focar nas rodas e no para-brisas.

Os métodos antigos diziam: "Ok, vamos corrigir os erros das orelhas e das rodas da mesma forma para todos os tipos de fotos". Isso não funciona bem, porque o que é importante muda dependendo do que você está olhando (o "token", ou seja, cada pedacinho da informação).

A Solução: A Equipe de Especialistas (Mixture of Experts)

Os autores criaram uma equipe de especialistas para consertar os erros de forma inteligente. Eles dividiram os problemas em dois grupos:

  1. Os Erros "Sempre Presentes" (Especialista Compartilhado):
    Existem alguns erros que acontecem sempre, não importa se é um cachorro ou um carro. É como se o gênio sempre tivesse um pouco de dificuldade com a cor "vermelho".

    • A Solução: Eles colocam um Especialista Fixo (o "Shared Expert") que cuida desses erros globais o tempo todo. Ele é como um mecânico de manutenção geral que está sempre lá garantindo que o básico funcione.
  2. Os Erros "Específicos" (Especialistas Rotativos):
    Agora, os erros que mudam dependendo da foto. Se é um cachorro, o erro está nas orelhas; se é um carro, está nas rodas.

    • A Solução: Eles criaram uma equipe de Especialistas Rotativos (os "Routed Experts"). Imagine um recepcionista inteligente (o "Router") na entrada.
      • Quando chega uma foto de um cachorro, o recepcionista diz: "Especialista A, você cuida disso!"
      • Quando chega uma foto de um carro, ele diz: "Especialista B, agora é com você!"
    • Cada especialista é um pequeno e rápido "ajuste fino" (um adaptador de baixa complexidade) feito especificamente para aquele tipo de erro.

Como isso funciona na prática?

O sistema Quant Experts faz duas coisas principais:

  1. Analisa o que é importante: Ele olha para milhões de exemplos de fotos e textos para ver quais partes do cérebro do gênio são mais usadas para cada tipo de coisa.
  2. Agrupa e Conserta: Ele separa os problemas que são "globais" (cuidados pelo especialista fixo) dos problemas que são "locais" (cuidados pelo especialista certo, escolhido dinamicamente).

Por que isso é incrível?

  • Leveza: Em vez de carregar um gênio gigante, você carrega um gênio pequeno (comprimido) + uma pequena equipe de especialistas. O peso extra é mínimo.
  • Precisão: Como o sistema escolhe o especialista certo para cada situação, ele consegue recuperar quase 100% da inteligência original, mesmo com o modelo muito comprimido.
  • Versatilidade: Funciona bem tanto para modelos pequenos (2 bilhões de parâmetros) quanto para gigantes (72 bilhões de parâmetros).

Resumo da Ópera

Antes, tentar enfiar um modelo de IA gigante em um dispositivo pequeno era como tentar colocar um elefante inteiro em um carro de brinquedo: ele ficava espremido e não funcionava direito.

O Quant Experts é como colocar o elefante em um carro de brinquedo, mas com um sistema de suspensão inteligente que ajusta a mola de acordo com o peso de cada parte do elefante. Se a orelha está pesada, a mola da orelha se ajusta. Se a tromba está pesada, a mola da tromba se ajusta.

O resultado? Você tem um elefante (o modelo de IA) que cabe no carro de brinquedo (seu dispositivo), anda rápido e não perde a inteligência. Isso permite que modelos poderosos de visão e linguagem rodem em celulares e computadores comuns sem precisar de supercomputadores.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →