Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Este artigo propõe o MoB (Multi-Objective Balanced Covering), um método de poda de tokens visuais que reformula o problema como uma cobertura bi-objetiva com limites de erro prováveis, permitindo um equilíbrio ótimo entre alinhamento de prompts e preservação visual que mantém a performance de modelos MLLM avançados com uma redução drástica no número de tokens.

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas gigante (o modelo de IA) e uma foto de um prato delicioso (a imagem de entrada). Para cozinhar (gerar a resposta), o modelo precisa ler a foto. Mas, em vez de ler apenas os ingredientes importantes, ele tenta ler cada grão de sal, cada gota de óleo e cada sombra no fundo. Isso torna o processo lento, pesado e caro.

O problema é: quais partes da foto realmente importam?

Até agora, as tentativas de resolver isso eram como tentar adivinhar:

  1. Focar só na beleza: "Manter tudo que é bonito na foto" (Preservação Visual).
  2. Focar só na pergunta: "Manter apenas o que a receita pede" (Alinhamento com o Prompt).

O artigo "1 + 1 < 1" diz que, quando você tenta misturar essas duas estratégias de forma burra (estática), o resultado é pior do que usar apenas uma delas. É como tentar cozinhar ouvindo duas músicas ao mesmo tempo: você não entende nem uma nem a outra.

Aqui está a explicação simples da solução proposta, chamada MoB (Cobertura Balanceada Multi-Objetivo):

1. O Problema: Nem Toda Foto é Igual

Os autores descobriram que existem dois tipos de "casos" diferentes:

  • Caso A: A Foto e a Pergunta são "Amigos Íntimos" (Acoplamento Forte).
    • Analogia: Imagine que você pergunta: "Onde está o gato?" e a foto é um gato dormindo no sofá. A resposta está em toda a foto. O gato está em vários lugares.
    • O que acontece: Você não precisa procurar muito. Basta manter a "essência" da foto (preservação visual). Tentar focar apenas em palavras específicas é desperdício.
  • Caso B: A Foto e a Pergunta são "Estranhos" (Acoplamento Fraco).
    • Analogia: Você pergunta: "Qual é a cor da camisa do homem que segura o balão vermelho?" e a foto é uma rua cheia de gente. A resposta está escondida em um detalhe minúsculo.
    • O que acontece: Se você só mantiver a "essência" da foto, vai perder o homem e o balão. Você precisa caçar especificamente a parte que responde à pergunta (alinhamento).

2. A Solução: O "Detetive Inteligente" (MoB)

O método MoB é como um detetive que chega na cozinha e pergunta: "Qual é o tipo de caso que temos hoje?"

Em vez de usar uma régua fixa para cortar a foto, o MoB faz duas coisas:

  1. Mede a Distância: Ele calcula quão "perto" a pergunta está das partes da imagem. Se a pergunta e a imagem estão "grudadas" (acoplamento forte), ele corta a foto de um jeito. Se estão "distantes" (acoplamento fraco), ele corta de outro.
  2. Divide o Orçamento: Ele tem um "orçamento" de quantos pedaços da foto pode guardar.
    • Se a pergunta é difícil de achar na foto, ele gasta mais orçamento procurando o "pedaço da resposta" (Alinhamento).
    • Se a pergunta é fácil e a foto é o foco, ele gasta o orçamento mantendo a "paisagem geral" (Preservação Visual).

3. A Mágica Matemática (Sem dor de cabeça)

Os autores usaram uma ideia geométrica chamada "Cobertura". Imagine que você quer cobrir uma mesa com tapetes:

  • Você precisa de tapetes pequenos para cobrir os detalhes (a resposta da pergunta).
  • Você precisa de tapetes grandes para cobrir o chão (o contexto da imagem).

O MoB descobre a quantidade exata de cada tipo de tapete que você precisa para cobrir a mesa inteira sem deixar buracos, usando o menor número possível de tapetes. Ele faz isso trocando "raios" (tamanho dos tapetes) de forma inteligente.

4. Por que isso é incrível?

  • Velocidade: O modelo fica 1,3 a 1,5 vezes mais rápido. É como trocar um caminhão de carga por um carro esportivo, mas sem perder a capacidade de carregar a bagagem.
  • Precisão: Mesmo cortando 88% dos dados da imagem (deixando apenas 11%), o modelo continua entendendo quase tudo (96% da performance original).
  • Versatilidade: Funciona tanto para fotos estáticas quanto para vídeos longos.

Resumo em uma frase

O MoB é um sistema que aprende a "olhar" para a imagem de forma inteligente: se a pergunta é específica, ele foca nos detalhes; se a pergunta é geral, ele foca no todo. Assim, ele descarta o lixo (dados inúteis) sem jogar fora a informação importante, tornando a IA mais rápida e eficiente.

O título "1 + 1 < 1" significa que tentar juntar duas estratégias ruins (ou mal ajustadas) não soma 2, mas sim resulta em algo pior que 1. O MoB resolve isso ajustando a mistura dinamicamente.