Adaptive MLP Pruning for Large Vision Transformers

Este artigo propõe o método de Poda Adaptativa de MLP (AMP), que utiliza um critério de entropia de informação sem rótulos e uma busca binária para reduzir automaticamente cerca de 40% dos parâmetros e FLOPs de grandes Transformers de visão, como CLIP e DINOv2, mantendo o desempenho quase sem perdas.

Chengchao Shen

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gigante da inteligência artificial, um "cérebro" digital chamado Vision Transformer, que é incrível para entender imagens. Ele é tão poderoso que consegue reconhecer gatos, carros e paisagens com uma precisão assustadora. Mas há um problema: esse gigante é gordo demais. Ele ocupa muito espaço no computador, consome muita energia e é lento para responder.

Os pesquisadores descobriram que a maior parte desse "peso" extra não está no cérebro todo, mas sim em uma parte específica chamada MLP (um tipo de módulo que processa informações). É como se o gigante tivesse 100 assistentes trabalhando em uma sala, mas 80 deles estivessem apenas olhando para a parede, sem fazer nada útil.

Aqui entra o método AMP (Poda Adaptativa de MLP), apresentado neste artigo. Vamos explicar como ele funciona usando analogias do dia a dia:

1. O Problema: O "Gigante Desnecessário"

Os gigantes (modelos grandes) são ótimos, mas caros. A ideia tradicional de "emagrecer" esses modelos era como cortar aleatoriamente os assistentes. Se você cortasse o errado, o gigante esquecia como identificar um cachorro.

2. A Solução Inteligente: O "Detetive de Importância"

Os autores criaram um método para descobrir quem realmente trabalha e quem está apenas "ocupando espaço".

  • A Velha Maneira (Erro Comum): Antes, os cientistas olhavam apenas se o assistente acertava a resposta certa (como um professor que só nota se você acertou a resposta exata da prova). Se o assistente não acertou a resposta exata, eles achavam que ele era inútil. O problema é que esse assistente pode ter pensado em outras respostas corretas, mas a prova só queria uma. A avaliação era injusta.
  • A Nova Maneira (O Truque da Entropia): O novo método (AMP) usa uma métrica chamada Entropia de Informação. Pense nisso como um termômetro de "confusão".
    • Imagine que você pergunta ao gigante: "O que é isso?".
    • Se o gigante diz: "É um gato, com 100% de certeza", ele está confiante.
    • Se o gigante diz: "Pode ser um gato, ou um cachorro, ou um coelho...", ele está confuso.
    • O método mede o quanto o modelo fica confuso quando você remove um assistente. Se remover um assistente faz o gigante ficar muito confuso (a "entropia" sobe), aquele assistente é importante. Se a confusão não muda, ele era apenas um "turista" e pode ser demitido.
    • Vantagem: Isso funciona mesmo sem ter a "prova" (rótulos) em mãos. É como avaliar um funcionário pelo seu comportamento no dia a dia, sem precisar de um teste final.

3. A Poda Adaptativa: O "Busca Binária"

Depois de identificar quem é importante, como decidir quantos demitir?

  • O Jeito Antigo: "Vamos demitir 40% de todos os assistentes, não importa o que aconteça." Isso é arriscado. Alguns departamentos podem precisar de menos gente, outros de mais.
  • O Jeito AMP (Busca Binária): É como procurar um livro em uma biblioteca gigante.
    1. Você pergunta: "Se eu demitir metade dos assistentes, o gigante ainda funciona?"
    2. Se sim: "Ótimo, vamos tentar demitir mais um pouco!"
    3. Se não: "Ops, demitimos demais. Vamos colocar alguns de volta."
    4. O algoritmo faz isso repetidamente, ajustando o número de demissões para cada sala (módulo) individualmente, até encontrar o ponto perfeito onde o modelo fica leve, mas não perde a inteligência.

4. A Recuperação: O "Mentor e o Aprendiz"

Depois de demitir os assistentes, o gigante pode ficar um pouco "atordoado". Para consertar isso, os autores usam uma técnica chamada Distilação de Conhecimento.

  • Imagine que o modelo original (o gigante completo) é o Mestre.
  • O modelo podado (o gigante magro) é o Aprendiz.
  • O Mestre ensina o Aprendiz a pensar da mesma forma que ele. O Aprendiz não precisa aprender do zero; ele apenas copia a "sabedoria" do Mestre.
  • O resultado? O Aprendiz fica quase tão inteligente quanto o Mestre, mas com metade do peso.

Os Resultados: O Que Acontece?

  • Leveza: O modelo fica 40% menor e mais rápido.
  • Inteligência: A inteligência cai muito pouco. Na verdade, em muitos casos, o modelo podado e "ensinado" pelo Mestre fica tão bom quanto o original, ou até um pouquinho melhor em alguns testes.
  • Versatilidade: Funciona em modelos famosos como CLIP e DINOv2, e até em modelos que não tinham todos os seus códigos abertos publicamente (graças à métrica de entropia que não precisa de rótulos).

Resumo em uma Frase

O método AMP é como uma cirurgia de emagrecimento inteligente para gigantes da IA: ele usa um termômetro de confusão para demitir apenas os funcionários inúteis, ajusta a quantidade de demissão sala por sala e usa um mentor para garantir que o gigante magro continue tão esperto quanto antes.