Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

O artigo apresenta o CaCoVID, um novo algoritmo de compressão de tokens para modelos de linguagem grandes em vídeo que utiliza aprendizado por reforço para otimizar ativamente a seleção de tokens com base em sua contribuição direta para respostas corretas, superando as limitações dos métodos tradicionais baseados em scores de atenção.

Yinchao Ma, Qiang Zhou, Zhibin Wang, Xianing Chen, Hanqing Yang, Jun Song, Bo Zheng

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas gigante (o modelo de IA) e quer ensinar a ele a cozinhar um prato específico (entender um vídeo). O problema é que o vídeo é como um filme de 2 horas com milhares de quadros. Se você entregar o filme inteiro, quadro por quadro, para o livro de receitas ler, ele vai ficar sobrecarregado, demorar uma eternidade para processar e, pior, pode se perder nos detalhes irrelevantes (como a cor da parede ou uma mosca passando), esquecendo o ingrediente principal.

Até agora, os métodos para "resumir" esse vídeo funcionavam como um filtro cego:

  • Método Antigo 1 (Baseado em Conteúdo): "Vamos manter os quadros mais coloridos ou diferentes." (Mas e se a cor não tiver nada a ver com a pergunta?)
  • Método Antigo 2 (Baseado em Atenção): "Vamos manter os quadros que o livro de receitas olhou com mais força." (O problema é que o livro pode olhar com força para a parede porque ela é brilhante, não porque é importante para a resposta).

Aqui entra o CaCoVID, o novo método proposto pelos pesquisadores da Alibaba. Vamos explicar como ele funciona usando uma analogia de um Detetive Inteligente.

1. O Detetive que Aprende com a Resposta (Aprendizado por Reforço)

Em vez de usar regras fixas, o CaCoVID cria um Detetive (uma pequena rede neural) cujo trabalho é escolher quais "pedaços" do vídeo (tokens) são essenciais para responder a uma pergunta específica.

  • A Grande Mudança: Antigamente, o detetive escolhia as pistas baseadas em regras genéricas. Com o CaCoVID, o detetive aprende na prática.
  • Como ele aprende? Ele tenta escolher um conjunto de pedaços do vídeo, entrega ao "Chefe" (o modelo de IA grande) e pergunta: "Isso responde a pergunta?".
    • Se o Chefe acertar a resposta, o detetive ganha um ponto de recompensa e pensa: "Ok, essa combinação de pistas foi boa!".
    • Se errar, ele perde pontos e aprende: "Ops, não devo ter escolhido aquele pedaço de vídeo onde a pessoa estava apenas piscando".

É como se você estivesse treinando um cachorro: você não diz "pegue a bola vermelha", você joga a bola e, quando ele traz a certa, você dá um petisco. O cachorro (o CaCoVID) aprende sozinho o que é importante.

2. O Problema do "Mar de Opções" (Otimização Combinatória)

Aqui está o desafio matemático: Se um vídeo tem 1.000 quadros, o número de combinações possíveis de quais quadros manter é astronômico (maior que o número de estrelas no universo). Tentar testar todas as combinações seria impossível; o detetive ficaria louco tentando escolher.

Para resolver isso, o CaCoVID usa uma técnica genial chamada Amostragem de Espaço Combinatório Online (OCSS).

  • A Analogia da Biblioteca: Imagine que você precisa encontrar 10 livros específicos em uma biblioteca com 1 milhão de livros.
    • Método Antigo: Você corre aleatoriamente por todos os corredores, pegando livros ao acaso. Provavelmente vai pegar muitos irrelevantes.
    • Método CaCoVID (OCSS): Primeiro, o detetive olha rapidamente para as capas e classifica os livros por "probabilidade de ser útil". Ele divide a biblioteca em seções (sub-espaços) baseadas nessa classificação.
    • Em vez de correr por toda a biblioteca, ele foca apenas nas seções mais promissoras e faz uma busca mais detalhada lá dentro. Isso reduz drasticamente o tempo de busca e aumenta a chance de achar os livros certos.

3. O Resultado: Mais Rápido e Mais Esperto

Graças a esse sistema, o CaCoVID consegue:

  1. Focar no que importa: Se a pergunta é "O que o homem está vestindo?", o sistema ignora o fundo, o céu e os objetos ao redor, e foca apenas nas roupas do homem (como mostrado nas figuras do papel).
  2. Ser super rápido: Como ele descarta a maioria dos dados inúteis antes mesmo de o modelo principal começar a "pensar", o vídeo é processado muito mais rápido.
  3. Não precisar reescrever o livro: O grande modelo de IA (o "Chefe") não precisa ser reeducado do zero. O CaCoVID é apenas um "filtro inteligente" que se adapta a qualquer modelo existente.

Resumo em uma Frase

O CaCoVID é como um assistente de edição de vídeo superinteligente que, em vez de cortar o filme aleatoriamente, assiste ao vídeo junto com você, aprende com seus acertos e erros, e corta tudo o que é desnecessário, deixando apenas os momentos cruciais para responder à sua pergunta, tudo isso de forma extremamente rápida e eficiente.

Por que isso é importante?
Isso permite que assistentes de IA entendam vídeos longos (como filmes inteiros ou aulas de horas) em tempo real, sem precisar de computadores gigantes e caros, tornando a tecnologia acessível para o dia a dia.