Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando explicar um filme inteiro para um amigo, mas você só tem tempo para falar por 10 segundos. Se você tentar descrever cada único quadro do filme (cada imagem que passa na tela), você vai se cansar, o amigo vai ficar confuso e a história principal se perderá no meio de tantos detalhes repetitivos.

É exatamente esse o problema que os Modelos de Linguagem Grandes para Vídeo (VLLMs) enfrentam hoje. Eles "assistem" a vídeos processando milhares de pequenas imagens (chamadas de "tokens"). Para vídeos longos, isso gera uma quantidade gigantesca de dados, deixando o sistema lento, caro e pesado.

O artigo que você enviou apresenta uma solução inteligente chamada AOT (Optimização de Contexto Local e Global via Transporte Ótimo). Vamos explicar como funciona usando analogias do dia a dia:

1. O Problema: A "Festa" de Dados Desnecessários

Imagine que o vídeo é uma festa lotada. O modelo de IA tenta conversar com todos os 10.000 convidados (tokens) ao mesmo tempo.

O que os métodos antigos faziam: Eles simplesmente jogavam fora os convidados que pareciam "chatos" ou "iguais demais". O problema é que, ao fazer isso, eles perdiam detalhes importantes que estavam escondidos nessas pessoas "chatas" (como uma expressão facial sutil ou um detalhe de fundo que explica o contexto).
O resultado: A festa fica vazia, mas a história do filme fica incompleta.

2. A Solução AOT: Os "Anfitriões" Inteligentes

Em vez de apenas jogar as pessoas fora, o método AOT cria Anfitriões (Anchors). Pense neles como os organizadores da festa que têm a missão de absorver a informação de todos os outros convidados.

O processo acontece em duas etapas mágicas:

Etapa 1: A Festa dentro da Sala (Contexto Local)

Dentro de um único quadro do vídeo (uma única foto), o sistema escolhe alguns "Anfitriões" espalhados pela imagem.

Anfitriões Globais: Eles olham para o "todo" da imagem (o que está acontecendo no centro da cena).
Anfitriões Locais: Eles olham para os cantos e detalhes específicos (o que está acontecendo na mesa, no fundo).
A Mágica do Transporte Ótimo: Aqui entra a parte genial. Em vez de apenas apagar os outros convidados, o sistema usa uma matemática inteligente (chamada Transporte Ótimo) para transferir a informação dos convidados comuns para os Anfitriões.
- Analogia: Imagine que cada convidado comum tem um "pacote de informação" (um detalhe visual). O Anfitrião não joga o pacote fora; ele recebe o pacote, mistura com o que já sabe e fica mais inteligente. Assim, o Anfitrião carrega a essência de 100 pessoas em si mesmo.

Etapa 2: A Festa ao Longo do Tempo (Contexto Global)

Agora, olhamos para o vídeo como um todo, quadro por quadro.

Se o vídeo mostra uma pessoa andando, o quadro 1, 2 e 3 são muito parecidos.
O sistema escolhe o primeiro quadro de um trecho como o "Anfitrião Principal".
Para os quadros seguintes, ele pergunta: "Essa pessoa mudou muito de posição?"
- Se mudou pouco: A informação é "transportada" e adicionada ao Anfitrião Principal (agregando contexto).
- Se mudou muito (ex: a pessoa pulou ou virou): Esse quadro é mantido separado para garantir que a "ação" não seja perdida.

3. Por que isso é incrível? (O Resultado)

Ao final desse processo, o sistema consegue:

Reduzir o trabalho em 90%: Em vez de processar 10.000 convidados, ele processa apenas cerca de 1.000 "Anfitriões" super-informados.
Não perder a história: Como a informação foi "transferida" e não "jogada fora", o modelo ainda consegue ver detalhes sutis e entender a sequência temporal do vídeo.
Ser mais rápido e barato: O computador gasta muito menos energia e tempo para "ler" o vídeo.

Resumo em uma frase

O AOT é como ter um tradutor super-hábil que assiste a um filme inteiro, anota os pontos principais em um caderno pequeno e inteligente, e entrega esse resumo perfeito para o computador, garantindo que nada importante seja esquecido, mas sem sobrecarregar o sistema com dados repetitivos.

O que isso significa para o futuro?
Isso permite que assistamos a vídeos longos, filmes inteiros ou horas de gravação em tempo real, com respostas rápidas e precisas, sem precisar de computadores gigantes e caros. É um passo gigante para tornar a inteligência artificial mais eficiente e acessível.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Linguagem Grandes para Vídeo (VLLMs) demonstraram capacidades notáveis na compreensão de conteúdo visual, mas enfrentam desafios críticos de eficiência computacional e consumo de memória.

Redundância de Tokens: O processamento de vídeos gera sequências massivas de tokens visuais (muitas vezes dezenas de milhares), criando um gargalo significativo durante a fase de prefilling (pré-preenchimento) do LLM.
Limitações das Métodos Existentes:
- Métodos atuais de poda (pruning) focam principalmente na redundância espacial intra-frame ou realizam a poda dentro do LLM com camadas rasas, resultando em redução espaço-temporal subótima.
- Abordagens comuns tendem a descartar tokens considerados "menos importantes" ou fundir tokens similares de forma simples. Isso frequentemente leva à perda de contexto sutil e informativo contido nos tokens removidos, degradando a fidelidade temporal e visual.
- Muitas soluções exigem fine-tuning (ajuste fino) extensivo, o que é custoso e pouco escalável.

2. Metodologia Proposta: AOT (Anchors via Optimal Transport)

O artigo propõe uma nova perspectiva chamada AOT (Anchors via Local-Global Optimal Transport). A ideia central não é apenas remover tokens, mas agregar o contexto informativo dos tokens descartados para os tokens mantidos (âncoras), utilizando uma estratégia de otimização global. O método é livre de treinamento (training-free).

O pipeline opera em duas fases principais:

A. Estabelecimento de Âncoras de Tokens (Local e Global)

Para cada quadro (frame), o método seleciona um conjunto inicial de "tokens âncora" que devem ser preservados:

Âncoras Globais: Selecionam tokens que recebem a maior atenção do token [CLS] nas camadas finais do codificador visual, capturando informações globais da cena.
Âncoras Locais: Dividem a imagem em janelas não sobrepostas e selecionam os tokens mais importantes dentro de cada janela (baseado em atenção de camadas rasas), preservando detalhes locais e diversidade espacial.
O conjunto final de âncoras é a união desses dois grupos, garantindo cobertura semântica e espacial.

B. Poda Espaço-Temporal via Transporte Ótimo (Optimal Transport - OT)

Em vez de simplesmente descartar os tokens não selecionados, o AOT utiliza a teoria do Transporte Ótimo para redistribuir a informação desses tokens para as âncoras.

Poda Intra-Frame (Espacial):
- Os tokens não selecionados são tratados como "fornecedores" de contexto e as âncoras como "demandantes".
- Calcula-se um plano de transporte ótimo ( $T$ ) que minimiza o custo (distância baseada em similaridade cosseno inversa) de mover a informação dos tokens descartados para as âncoras.
- As âncoras são atualizadas com uma agregação ponderada pela massa de transporte, consolidando o contexto global e local.
Poda Inter-Frame (Temporal):
- Os quadros são divididos em clipes temporais. O primeiro quadro de cada clipe serve como âncora temporal inicial.
- Para quadros subsequentes, o OT é aplicado entre as âncoras do quadro anterior e os tokens do quadro atual.
- Mecanismo de Dinâmica Temporal: Se um token em um quadro subsequente apresentar uma mudança drástica (baixa similaridade com as âncoras, indicando movimento ou mudança crítica), ele é mantido para preservar a dinâmica temporal. Caso contrário, ele é suavemente agregado às âncoras do clipe.

C. Solução Eficiente

O problema de otimização do Transporte Ótimo é resolvido rapidamente usando a Iteração Sinkhorn-Knopp, permitindo uma execução eficiente com sobrecarga computacional negligenciável (menos de 1% do tempo total de inferência).

3. Principais Contribuições

Mudança de Paradigma: É a primeira abordagem a investigar a agregação de semântica e contexto sutis de tokens removidos para os restantes, em vez de apenas descartá-los ou fundi-los cegamente.
Seleção Híbrida de Âncoras: Desenvolve uma estratégia de seleção de âncoras que considera tanto o contexto global quanto o local, garantindo candidatos espacialmente diversos e semanticamente importantes.
Otimização Espaço-Temporal sem Treinamento: Explora o Transporte Ótimo para agregar contexto espaço-temporal em um pipeline livre de treinamento, preservando a fidelidade temporal e visual.
Eficiência Extrema: Demonstra que é possível reduzir drasticamente o custo computacional mantendo o desempenho do modelo.

4. Resultados Experimentais

Os autores avaliaram o AOT nos modelos LLaVA-OneVision-7B e LLaVA-Video-7B em benchmarks abrangentes (MVBench, EgoSchema, LongVideoBench, VideoMME).

Desempenho vs. Eficiência:
- O método reduziu o custo computacional (FLOPs) para apenas 8,3% do original.
- Podou 90% dos tokens de vídeo.
- Preservou 97,6% do desempenho do modelo original (vanilla) em média em todos os benchmarks.
Comparação: O AOT superou consistentemente métodos state-of-the-art de poda (como FastV, VisionZip, DyCoke, PruneVid), especialmente em cenários de compressão agressiva (retenção de 10-15% dos tokens).
Robustez: O método manteve desempenho superior mesmo com aumento no número de quadros de entrada (de 16 a 128 frames), superando modelos não comprimidos que sofrem com limites de contexto.
Custo de Inferência: A sobrecarga da iteração Sinkhorn foi de apenas ~2.11 ms por vídeo, representando menos de 1% do tempo total de inferência.

5. Significado e Impacto

O trabalho AOT oferece uma solução prática e eficiente para o gargalo de inferência em VLLMs. Ao demonstrar que a agregação inteligente de contexto via Transporte Ótimo é superior à simples remoção de redundância, o artigo:

Permite a execução de VLLMs em hardware com recursos limitados, facilitando a aplicação em cenários de tempo real.
Abre novas direções para a compressão de vídeo em modelos multimodais, mostrando que a integridade temporal e visual pode ser mantida mesmo com uma redução extrema de tokens.
Oferece um framework modular que pode ser aplicado a diversos modelos de linguagem visual sem a necessidade de retreinamento custoso.

Em resumo, o AOT transforma a redução de tokens de um processo destrutivo (apagar dados) para um processo de distilação e agregação, garantindo que a informação essencial seja preservada e concentrada nos tokens restantes.