ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

O artigo apresenta o ViT-Linearizer, um framework de destilação que transfere o conhecimento de modelos Vision Transformers para arquiteturas lineares e recursivas, como o Mamba, alcançando alta eficiência computacional e desempenho competitivo em tarefas de visão computacional.

Guoyizhe Wei, Rama Chellappa

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da inteligência artificial (o modelo ViT) que é incrivelmente inteligente e consegue ver o mundo com detalhes perfeitos. Ele consegue entender uma foto não apenas olhando para o todo, mas analisando a relação entre cada pixel e todos os outros pixels da imagem ao mesmo tempo. É como se ele tivesse mil olhos olhando para todos os cantos de uma sala simultaneamente.

O problema? Esse gênio é lento e gasta muita energia. Se a foto for pequena (como um ícone de celular), ele é rápido. Mas se a foto for gigante (como um mapa de satélite ou um filme em 4K), ele precisa fazer tantas conexões que demora uma eternidade e consome toda a bateria do seu computador. É como tentar resolver um quebra-cabeça de 10.000 peças olhando para cada peça individualmente e comparando com todas as outras 9.999 antes de encaixar a próxima.

Os pesquisadores deste paper, da Universidade Johns Hopkins, criaram uma solução genial chamada ViT-Linearizer. Eles não queriam apenas "diminuir" o gênio (o que o tornaria burro), nem queriam que ele continuasse lento. Eles queriam ensinar um novo aluno a pensar como o gênio, mas de uma forma muito mais rápida.

Aqui está como eles fizeram isso, usando analogias simples:

1. O Aluno Rápido (O Modelo Linear)

Eles escolheram um tipo de modelo chamado "Mamba" (ou Adventurer), que é como um leitor de livros sequencial. Em vez de olhar para todas as páginas de uma vez, ele lê uma página, depois a próxima, e assim por diante. Isso é muito mais rápido e gasta menos energia (complexidade linear), mas, historicamente, ele não entendia tão bem as conexões profundas entre as partes da imagem quanto o gênio lento.

2. A Técnica de Ensino: "Espelhamento" e "Esconde-Esconde"

Para ensinar o aluno rápido a pensar como o gênio lento, eles usaram duas estratégias principais de "distilação" (transferência de conhecimento):

  • A. Espelhamento de Ativação (Activation Matching):
    Imagine que o gênio (professor) está olhando para uma foto de um cachorro. Ele acende "luzinhas" no cérebro dele mostrando onde está o focinho, as orelhas e o rabo, e como o focinho se relaciona com as orelhas.
    O método força o aluno (Mamba) a olhar para a mesma foto e acender as mesmas luzinhas nas mesmas posições.

    • A mágica: Eles não olham apenas para a resposta final (o nome "cachorro"), mas sim para o processo de pensamento no meio do caminho. Eles dizem: "Ei, quando você vê o focinho, você precisa pensar na orelha da mesma forma que eu penso, mesmo que você esteja lendo a imagem de forma sequencial." Isso ensina o aluno a criar conexões ricas sem ter que fazer o trabalho pesado de calcular tudo de uma vez.
  • B. Previsão de "Esconde-Esconde" (Masked Prediction):
    Agora, imagine que o professor esconde partes da foto (cobre com um adesivo) e diz: "Eu vejo a foto inteira, mas você só vê o que não está coberto. Adivinhe o que tem debaixo do adesivo baseando-se no que você vê."
    O aluno precisa usar o que aprendeu com o professor para "preencher as lacunas" mentalmente. Isso força o aluno a desenvolver uma compreensão profunda da imagem, não apenas memorizar o que está visível. É como um treino de imaginação que torna o cérebro do aluno mais forte e capaz de entender contextos longos.

O Resultado: O Melhor dos Dois Mundos

O resultado dessa "turma de aceleração" foi impressionante:

  1. Velocidade: O novo modelo (o aluno treinado) é muito mais rápido. Em tarefas com imagens grandes (como segmentação de cidades em mapas), ele foi até 4 vezes mais rápido que o gênio original, sem perder qualidade.
  2. Inteligência: O aluno ficou tão inteligente que bateu recordes em testes padrão (como o ImageNet), alcançando 84,3% de precisão, o que é incrível para um modelo que é tão leve e rápido.
  3. Eficiência: Ele consome menos memória e energia, o que significa que podemos rodar esses modelos inteligentes em dispositivos mais simples ou processar vídeos em alta resolução em tempo real.

Resumo em uma Frase

O ViT-Linearizer é como pegar um gênio lento e caro que vê tudo de uma vez, e usar técnicas de ensino avançadas para transformar um aluno rápido e econômico em alguém que pensa com a mesma profundidade, mas consegue ler o mundo página por página, permitindo que a inteligência artificial veja o mundo em alta definição sem travar o computador.

É uma ponte entre a teoria (modelos rápidos) e a prática (modelos inteligentes), permitindo que a IA evolua para lidar com imagens gigantes e vídeos complexos no futuro.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →