Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

O artigo propõe a Poda de Tokens em Pirâmide (PTP), uma estratégia sem treinamento que integra a saliência visual hierárquica e a relevância guiada por instruções para reduzir significativamente o custo computacional e a latência de inferência em Modelos Grandes Visuais-Linguísticos de alta resolução, mantendo o desempenho quase inalterado.

Yuxuan Liang, Xu Li, Xiaolei Chen, Yi Zheng, Haotian Chen, Bin Li, Xiangyang Xue

Publicado 2026-02-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio extremamente inteligente (o Modelo de Visão e Linguagem) que consegue responder a qualquer pergunta sobre uma foto. O problema é que, quando você mostra uma foto em alta resolução (muito detalhada), o cérebro desse gênio fica sobrecarregado.

Por que? Porque a foto é dividida em milhares de pequenos pedaços (chamados "tokens"), e o gênio precisa analisar cada um deles antes de responder. É como se alguém te mostrasse um mapa do mundo inteiro e pedisse para você encontrar uma rua específica, mas você fosse obrigado a ler o nome de cada árvore, cada pedra e cada nuvem do mapa antes de dizer onde está a rua. Isso demora muito, gasta muita energia e deixa o computador lento.

Até agora, as soluções eram como "apagar metade do mapa aleatoriamente" ou "apagar apenas as bordas". O resultado? O gênio às vezes perdia a pista e respondia errado, ou ainda demorava muito.

A Solução: O "Poda de Pirâmide" (PTP)

Os autores deste artigo criaram uma técnica chamada Poda de Pirâmide de Tokens (PTP). Pense nela como um assistente pessoal super-organizado que trabalha antes do gênio ver a foto.

Aqui está como esse assistente funciona, usando uma analogia simples:

1. A Visão de Baixo para Cima (O que é importante visualmente?)

Imagine que você está em um museu cheio de quadros. Seu assistente primeiro olha para a sala inteira e diz:

"Olha, aquele quadro no canto esquerdo tem uma luz brilhante e parece muito interessante. Vamos gastar mais tempo nele. Aquele outro no canto direito é apenas uma parede vazia. Vamos ignorar a maioria dos detalhes dele."

Isso é a Importância da Região. O sistema identifica quais partes da foto têm mais "vida" ou detalhes importantes e decide quantos pedaços (tokens) daquela área merecem ser mantidos.

2. A Visão de Cima para Baixo (O que você quer saber?)

Agora, imagine que você faz uma pergunta específica: "Onde está o gato azul?".
O assistente olha para a sua pergunta e diz:

"Ah, você quer saber sobre o gato azul. Mesmo que haja uma árvore bonita no fundo (que o assistente achou interessante no passo 1), ela não importa agora. Vamos focar apenas nos pixels que parecem com um gato azul."

Isso é a Importância Guiada pela Instrução. O sistema usa a sua pergunta para filtrar o que é realmente relevante para a resposta, ignorando até mesmo coisas visualmente bonitas que não têm nada a ver com o seu pedido.

3. A Fusão Perfeita (O "Poda de Pirâmide")

O segredo do PTP é combinar essas duas visões. Ele cria uma pirâmide de prioridades:

  • Primeiro, ele corta o que é visualmente chato (a parede vazia).
  • Depois, dentro das áreas interessantes, ele corta o que não tem a ver com a sua pergunta (a árvore bonita, mas sem gato).
  • No final, ele entrega ao gênio apenas os pedaços essenciais da foto.

O Resultado Mágico

Graças a essa técnica, o que acontece?

  • Velocidade: O computador processa a foto em metade do tempo (ou até menos), porque tem muito menos "lixo" para analisar.
  • Memória: Ele usa menos memória do computador (como se você estivesse carregando uma mochila mais leve).
  • Precisão: O gênio continua respondendo com 99% de precisão, e em alguns casos, até responde melhor! Por que? Porque ao remover o "ruído" (as partes irrelevantes), o gênio consegue focar melhor no que realmente importa.

Resumo em uma frase

O PTP é como um editor de fotos inteligente que, antes de você mostrar uma imagem para um especialista, corta automaticamente tudo o que é irrelevante para a sua pergunta, mantendo apenas o essencial. Isso torna o processo super rápido e barato, sem perder a inteligência da resposta.

É como se, em vez de ler um livro inteiro para encontrar uma frase, o assistente te entregasse apenas a página e o parágrafo exato onde a resposta está.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →