InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

O artigo apresenta o InfoTok, um framework inovador baseado na teoria da informação que utiliza um algoritmo de limite inferior de evidência (ELBO) para realizar a tokenização adaptativa de vídeos, alcançando compressão superior e economia de tokens sem comprometer a qualidade da representação.

Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu

Publicado 2026-03-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa enviar um vídeo longo para um amigo pela internet, mas a conexão é muito lenta. O problema é que os vídeos modernos são gigantes: eles contêm milhões de "pedaços" de informação (chamados de tokens). Se você tentar enviar tudo, a mensagem demora uma eternidade ou nem chega.

A solução atual é como tentar empacotar tudo em caixas do mesmo tamanho, não importa o que tenha dentro. Se você tem um vídeo de um gato dormindo (muito calmo) e um vídeo de uma briga de cachorros (muito agitado), os métodos antigos tratam os dois da mesma forma: enchem caixas cheias para o gato (desperdiçando espaço) e deixam caixas vazias para a briga (perdendo detalhes).

INFOTOK é uma nova tecnologia que resolve isso de forma inteligente. Aqui está como funciona, explicado de forma simples:

1. O Problema: A "Caixa de Ferramentas" Rígida

Pense nos métodos antigos de compressão de vídeo como um carteiro que usa apenas caixas de sapato.

  • Se você mandar um bilhete pequeno (um vídeo de um gato dormindo), o carteiro usa uma caixa de sapato cheia de papel de seda para preencher o espaço. É um desperdício enorme de caixa e papel.
  • Se você mandar um sofá grande (um vídeo de uma explosão ou uma briga), o carteiro tenta espremer o sofá na mesma caixa de sapato. O sofá fica esmagado e você perde a forma dele.

Isso acontece porque os vídeos têm "densidade de informação" diferente. Algumas partes são chatas e repetitivas; outras são cheias de ação e detalhes.

2. A Solução: O "Mestre de Obras" Inteligente (INFOTOK)

O INFOTOK funciona como um mestre de obras superinteligente que olha para cada parte do vídeo antes de empacotar. Ele segue uma regra baseada na "Teoria da Informação" (uma ciência matemática sobre como medir informação):

  • Para o gato dormindo: O mestre vê que é tudo igual e calmo. Ele diz: "Não preciso de uma caixa cheia! Vou usar apenas 30% da caixa e deixar o resto vazio."
  • Para a briga de cachorros: Ele vê que há muita ação, movimento e detalhes. Ele diz: "Preciso de 70% da caixa para garantir que nada se perca!"

O resultado? O vídeo do gato ocupa muito menos espaço na internet, e o vídeo da briga fica nítido e sem perder detalhes.

3. Como ele decide o que guardar? (O "Radar de Curiosidade")

O INFOTOK usa uma ferramenta chamada ELBO (que é um nome chique para um "medidor de curiosidade").

  • Imagine que você está assistindo a um filme. Se a cena é estática (uma paisagem bonita), você não precisa prestar atenção em cada folha da árvore; seu cérebro ignora o excesso.
  • Se a cena muda rápido (alguém correndo), seu cérebro foca em tudo.

O INFOTOK faz a mesma coisa. Ele calcula o quanto de "surpresa" ou "informação nova" existe em cada frame do vídeo.

  • Baixa surpresa (cenas calmas): Ele descarta os "tokens" (pedaços de dados) que são redundantes.
  • Alta surpresa (cenas agitadas): Ele guarda todos os tokens importantes.

4. A Mágica: "Comprimir sem Perder"

A parte mais genial é que o INFOTOK não apenas joga fora o que é chato; ele reorganiza o que é importante.
Imagine que você tem um álbum de fotos. Em vez de colar 100 fotos de um céu azul (que são todas iguais), você cola apenas 1 foto do céu e escreve "céu azul" 99 vezes. Mas, se houver uma foto de um raio, você cola ela bem grande e com cores vivas.

O INFOTOK faz isso digitalmente:

  1. Ele analisa o vídeo.
  2. Decide quantos "pedaços" (tokens) precisa para cada parte.
  3. Comprime as partes chatas para o mínimo possível.
  4. Mantém as partes agitadas com alta qualidade.

Por que isso é incrível?

Os testes mostraram que o INFOTOK consegue:

  • Reduzir o tamanho do vídeo em 50% sem que a qualidade pareça pior.
  • Ser 2,3 vezes mais eficiente do que os métodos atuais que tentam fazer algo parecido (mas de forma desajeitada).
  • Ser muito mais rápido: Métodos antigos precisam "tentar e errar" (tentar várias vezes para ver quantos pedaços usar). O INFOTOK calcula de uma vez só, como um GPS que já sabe o caminho mais curto.

Resumo em uma frase

O INFOTOK é como um carteiro que deixa de usar caixas do mesmo tamanho para tudo e passa a usar caixas personalizadas: pequenas para coisas simples e grandes para coisas complexas, economizando tempo e espaço sem estragar o conteúdo.

Isso é fundamental para o futuro, pois permitirá que computadores "vejam" e "entendam" vídeos longos (como filmes inteiros ou transmissões ao vivo) de forma muito mais rápida e eficiente, sem precisar de computadores gigantes para processar tudo.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →