Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

O artigo propõe o método AOT (Token Anchors via Local and Global Optimal Transport), uma abordagem sem treinamento que otimiza a eficiência dos Modelos de Linguagem Grande para Vídeo ao reduzir tokens redundantes agregando contextos locais e globais através de transporte ótimo, preservando assim a fidelidade visual e temporal em benchmarks de vídeos curtos e longos.

Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando explicar um filme inteiro para um amigo, mas você só tem tempo para falar por 10 segundos. Se você tentar descrever cada único quadro do filme (cada imagem que passa na tela), você vai se cansar, o amigo vai ficar confuso e a história principal se perderá no meio de tantos detalhes repetitivos.

É exatamente esse o problema que os Modelos de Linguagem Grandes para Vídeo (VLLMs) enfrentam hoje. Eles "assistem" a vídeos processando milhares de pequenas imagens (chamadas de "tokens"). Para vídeos longos, isso gera uma quantidade gigantesca de dados, deixando o sistema lento, caro e pesado.

O artigo que você enviou apresenta uma solução inteligente chamada AOT (Optimização de Contexto Local e Global via Transporte Ótimo). Vamos explicar como funciona usando analogias do dia a dia:

1. O Problema: A "Festa" de Dados Desnecessários

Imagine que o vídeo é uma festa lotada. O modelo de IA tenta conversar com todos os 10.000 convidados (tokens) ao mesmo tempo.

  • O que os métodos antigos faziam: Eles simplesmente jogavam fora os convidados que pareciam "chatos" ou "iguais demais". O problema é que, ao fazer isso, eles perdiam detalhes importantes que estavam escondidos nessas pessoas "chatas" (como uma expressão facial sutil ou um detalhe de fundo que explica o contexto).
  • O resultado: A festa fica vazia, mas a história do filme fica incompleta.

2. A Solução AOT: Os "Anfitriões" Inteligentes

Em vez de apenas jogar as pessoas fora, o método AOT cria Anfitriões (Anchors). Pense neles como os organizadores da festa que têm a missão de absorver a informação de todos os outros convidados.

O processo acontece em duas etapas mágicas:

Etapa 1: A Festa dentro da Sala (Contexto Local)

Dentro de um único quadro do vídeo (uma única foto), o sistema escolhe alguns "Anfitriões" espalhados pela imagem.

  • Anfitriões Globais: Eles olham para o "todo" da imagem (o que está acontecendo no centro da cena).
  • Anfitriões Locais: Eles olham para os cantos e detalhes específicos (o que está acontecendo na mesa, no fundo).
  • A Mágica do Transporte Ótimo: Aqui entra a parte genial. Em vez de apenas apagar os outros convidados, o sistema usa uma matemática inteligente (chamada Transporte Ótimo) para transferir a informação dos convidados comuns para os Anfitriões.
    • Analogia: Imagine que cada convidado comum tem um "pacote de informação" (um detalhe visual). O Anfitrião não joga o pacote fora; ele recebe o pacote, mistura com o que já sabe e fica mais inteligente. Assim, o Anfitrião carrega a essência de 100 pessoas em si mesmo.

Etapa 2: A Festa ao Longo do Tempo (Contexto Global)

Agora, olhamos para o vídeo como um todo, quadro por quadro.

  • Se o vídeo mostra uma pessoa andando, o quadro 1, 2 e 3 são muito parecidos.
  • O sistema escolhe o primeiro quadro de um trecho como o "Anfitrião Principal".
  • Para os quadros seguintes, ele pergunta: "Essa pessoa mudou muito de posição?"
    • Se mudou pouco: A informação é "transportada" e adicionada ao Anfitrião Principal (agregando contexto).
    • Se mudou muito (ex: a pessoa pulou ou virou): Esse quadro é mantido separado para garantir que a "ação" não seja perdida.

3. Por que isso é incrível? (O Resultado)

Ao final desse processo, o sistema consegue:

  1. Reduzir o trabalho em 90%: Em vez de processar 10.000 convidados, ele processa apenas cerca de 1.000 "Anfitriões" super-informados.
  2. Não perder a história: Como a informação foi "transferida" e não "jogada fora", o modelo ainda consegue ver detalhes sutis e entender a sequência temporal do vídeo.
  3. Ser mais rápido e barato: O computador gasta muito menos energia e tempo para "ler" o vídeo.

Resumo em uma frase

O AOT é como ter um tradutor super-hábil que assiste a um filme inteiro, anota os pontos principais em um caderno pequeno e inteligente, e entrega esse resumo perfeito para o computador, garantindo que nada importante seja esquecido, mas sem sobrecarregar o sistema com dados repetitivos.

O que isso significa para o futuro?
Isso permite que assistamos a vídeos longos, filmes inteiros ou horas de gravação em tempo real, com respostas rápidas e precisas, sem precisar de computadores gigantes e caros. É um passo gigante para tornar a inteligência artificial mais eficiente e acessível.