Stateful Token Reduction for Long-Video Hybrid VLMs

O artigo propõe um método de redução progressiva de tokens, do baixo ao alto, com uma pontuação unificada sensível à linguagem para arquiteturas híbridas de VLMs de vídeo longo, alcançando acelerações significativas no pré-preenchimento sem sacrificar a precisão.

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko, Karan Sapra, Zhiding Yu, Guilin Liu, Andrew Tao, Pavlo Molchanov, Jan Kautz, Wonmin Byeon

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um filme de 2 horas para assistir e precisa explicar o que acontece nele para um amigo. Se você tentar descrever cada segundo, cada movimento de câmera e cada detalhe da roupa de cada personagem, você vai ficar exausto e seu amigo vai ficar entediado antes de chegar ao ponto principal.

É exatamente esse o problema que os computadores enfrentam hoje quando tentam "ver" vídeos longos. Eles recebem milhares de "pedaços" de imagem (chamados de tokens) e tentam processar todos eles de uma vez. Isso deixa o computador lento, caro e, muitas vezes, confuso.

Este artigo da NVIDIA apresenta uma solução inteligente chamada Redução de Tokens com Estado. Vamos descomplicar isso usando algumas analogias do dia a dia:

1. O Problema: A "Festa" de Tokens

Imagine que o vídeo é uma festa gigante com 10.000 pessoas (os tokens). O computador (o VLM) precisa conversar com você (o texto/pergunta) sobre essa festa.

  • O jeito antigo: O computador tenta ouvir o que todas as 10.000 pessoas estão dizendo ao mesmo tempo. É barulhento, lento e a maioria das pessoas só está conversando sobre o tempo ou comendo um petisco (informação redundante).
  • O jeito novo: O computador decide ouvir apenas as pessoas importantes. Mas, como ele sabe quem é importante?

2. A Descoberta: A "Memória" do Computador

Os pesquisadores descobriram algo interessante sobre como os computadores modernos funcionam. Eles usaram dois tipos de "cérebros" diferentes para testar:

  • Cérebro Puro (Transformador): Funciona como uma pessoa que ouve uma frase e esquece a anterior imediatamente. Se você cortar uma parte da frase no começo, a pessoa perde o sentido da frase inteira.
  • Cérebro Híbrido (Mamba + Transformador): Funciona como alguém que tem uma memória de curto prazo. Mesmo que você pare de falar sobre um detalhe específico, a pessoa ainda guarda a "essência" do que foi dito em sua mente (o "estado").

A Grande Revelação:
No início do vídeo, o computador não sabe bem o que é importante. A importância das pessoas muda o tempo todo. Se você cortar as pessoas "desinteressantes" logo no começo (agressivamente), você pode cortar alguém que se tornaria crucial 10 minutos depois.

  • No Cérebro Puro: Cortar cedo é fatal. A informação some para sempre.
  • No Cérebro Híbrido: Cortar cedo é menos perigoso! Mesmo que você pare de ouvir alguém, a "memória" do computador já guardou um resumo do que aquela pessoa disse. É como se você fizesse um resumo mental de uma conversa e depois parasse de ouvir os detalhes, mas ainda soubesse o ponto principal.

3. A Solução: O "Filtro Progressivo"

Baseado nisso, eles criaram uma estratégia chamada Redução Progressiva (do Baixo para o Alto).

Imagine que você está organizando a festa para o computador:

  1. No Início (O "Aquecimento"): O computador deixa quase todo mundo entrar na sala. Ele não corta ninguém ainda, porque ainda não sabe quem é o "personagem principal" do vídeo. Ele deixa o computador acumular informações na sua "memória".
  2. No Meio (O "Filtro"): Conforme o vídeo avança, o computador começa a identificar quem realmente importa para a sua pergunta.
  3. No Fim (A "Seleção Final"): Agora que a memória está cheia e o computador sabe o contexto, ele começa a cortar agressivamente os tokens inúteis. Ele mantém apenas os 25% mais importantes.

4. O Resultado: Velocidade Relâmpago

Com essa técnica, o computador consegue:

  • Processar vídeos longos 4 vezes mais rápido. É como se você pudesse assistir a um filme de 2 horas em 30 minutos, mas ainda entendesse perfeitamente a história.
  • Manter a precisão. Ao contrário de métodos antigos que cortavam tudo no início e perdiam detalhes, essa abordagem mantém a qualidade da resposta quase igual à de quem assiste a tudo.
  • Economizar energia. Menos dados processados significam menos bateria gasta e menos calor gerado pelo computador.

Resumo em uma frase

Em vez de tentar ouvir todo o barulho de uma festa gigante de uma vez, esse novo método deixa o computador ouvir um pouco de tudo no começo para "entender o clima", guarda o resumo na memória e, só depois, foca apenas nas conversas que realmente importam para responder à sua pergunta, tornando tudo muito mais rápido e eficiente.

É como ter um assistente pessoal que sabe exatamente quando prestar atenção aos detalhes e quando confiar no que ele já aprendeu, permitindo que ele leia livros inteiros em segundos sem esquecer o enredo!