InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa enviar um vídeo longo para um amigo pela internet, mas a conexão é muito lenta. O problema é que os vídeos modernos são gigantes: eles contêm milhões de "pedaços" de informação (chamados de tokens). Se você tentar enviar tudo, a mensagem demora uma eternidade ou nem chega.

A solução atual é como tentar empacotar tudo em caixas do mesmo tamanho, não importa o que tenha dentro. Se você tem um vídeo de um gato dormindo (muito calmo) e um vídeo de uma briga de cachorros (muito agitado), os métodos antigos tratam os dois da mesma forma: enchem caixas cheias para o gato (desperdiçando espaço) e deixam caixas vazias para a briga (perdendo detalhes).

INFOTOK é uma nova tecnologia que resolve isso de forma inteligente. Aqui está como funciona, explicado de forma simples:

1. O Problema: A "Caixa de Ferramentas" Rígida

Pense nos métodos antigos de compressão de vídeo como um carteiro que usa apenas caixas de sapato.

Se você mandar um bilhete pequeno (um vídeo de um gato dormindo), o carteiro usa uma caixa de sapato cheia de papel de seda para preencher o espaço. É um desperdício enorme de caixa e papel.
Se você mandar um sofá grande (um vídeo de uma explosão ou uma briga), o carteiro tenta espremer o sofá na mesma caixa de sapato. O sofá fica esmagado e você perde a forma dele.

Isso acontece porque os vídeos têm "densidade de informação" diferente. Algumas partes são chatas e repetitivas; outras são cheias de ação e detalhes.

2. A Solução: O "Mestre de Obras" Inteligente (INFOTOK)

O INFOTOK funciona como um mestre de obras superinteligente que olha para cada parte do vídeo antes de empacotar. Ele segue uma regra baseada na "Teoria da Informação" (uma ciência matemática sobre como medir informação):

Para o gato dormindo: O mestre vê que é tudo igual e calmo. Ele diz: "Não preciso de uma caixa cheia! Vou usar apenas 30% da caixa e deixar o resto vazio."
Para a briga de cachorros: Ele vê que há muita ação, movimento e detalhes. Ele diz: "Preciso de 70% da caixa para garantir que nada se perca!"

O resultado? O vídeo do gato ocupa muito menos espaço na internet, e o vídeo da briga fica nítido e sem perder detalhes.

3. Como ele decide o que guardar? (O "Radar de Curiosidade")

O INFOTOK usa uma ferramenta chamada ELBO (que é um nome chique para um "medidor de curiosidade").

Imagine que você está assistindo a um filme. Se a cena é estática (uma paisagem bonita), você não precisa prestar atenção em cada folha da árvore; seu cérebro ignora o excesso.
Se a cena muda rápido (alguém correndo), seu cérebro foca em tudo.

O INFOTOK faz a mesma coisa. Ele calcula o quanto de "surpresa" ou "informação nova" existe em cada frame do vídeo.

Baixa surpresa (cenas calmas): Ele descarta os "tokens" (pedaços de dados) que são redundantes.
Alta surpresa (cenas agitadas): Ele guarda todos os tokens importantes.

4. A Mágica: "Comprimir sem Perder"

A parte mais genial é que o INFOTOK não apenas joga fora o que é chato; ele reorganiza o que é importante.
Imagine que você tem um álbum de fotos. Em vez de colar 100 fotos de um céu azul (que são todas iguais), você cola apenas 1 foto do céu e escreve "céu azul" 99 vezes. Mas, se houver uma foto de um raio, você cola ela bem grande e com cores vivas.

O INFOTOK faz isso digitalmente:

Ele analisa o vídeo.
Decide quantos "pedaços" (tokens) precisa para cada parte.
Comprime as partes chatas para o mínimo possível.
Mantém as partes agitadas com alta qualidade.

Por que isso é incrível?

Os testes mostraram que o INFOTOK consegue:

Reduzir o tamanho do vídeo em 50% sem que a qualidade pareça pior.
Ser 2,3 vezes mais eficiente do que os métodos atuais que tentam fazer algo parecido (mas de forma desajeitada).
Ser muito mais rápido: Métodos antigos precisam "tentar e errar" (tentar várias vezes para ver quantos pedaços usar). O INFOTOK calcula de uma vez só, como um GPS que já sabe o caminho mais curto.

Resumo em uma frase

O INFOTOK é como um carteiro que deixa de usar caixas do mesmo tamanho para tudo e passa a usar caixas personalizadas: pequenas para coisas simples e grandes para coisas complexas, economizando tempo e espaço sem estragar o conteúdo.

Isso é fundamental para o futuro, pois permitirá que computadores "vejam" e "entendam" vídeos longos (como filmes inteiros ou transmissões ao vivo) de forma muito mais rápida e eficiente, sem precisar de computadores gigantes para processar tudo.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A tokenização discreta de vídeo é fundamental para o processamento de sequências longas em modelos de fundação visuais e de linguagem (LLMs). No entanto, os tokenizadores existentes enfrentam dois desafios principais:

Taxa de Compressão Rígida: A maioria dos métodos atuais (como VQ-VAE, VQGAN e Cosmos) utiliza uma taxa de compressão fixa para todos os vídeos, independentemente do seu conteúdo. Isso ignora a densidade variável de informação: cenas estáticas são supercomprimidas (redundância), enquanto cenas dinâmicas e complexas são subcomprimidas (perda de informação).
Ineficiência em Métodos Adaptativos Atuais: Tentativas recentes de tokenização adaptativa (ex: ElasticTok) utilizam métodos heurísticos e "data-agnostic" (ignorantes dos dados), como amostragem uniforme de comprimentos de token ou busca por tentativa e erro durante a inferência. O artigo prova teoricamente que esses métodos são subótimos e tendenciosos, resultando em comprimentos de sequência de tokens esperados significativamente maiores do que o ideal para uma qualidade de reconstrução equivalente.

2. Metodologia: INFOTOK

O INFOTOK é um framework de tokenização adaptativa baseado na Teoria da Informação de Shannon. O objetivo é alocar tokens dinamicamente de acordo com a complexidade informacional de cada quadro de vídeo.

Fundamentação Teórica

O artigo prova que, para atingir a compressão ótima, o comprimento do token ( $N_x$ ) deve ser proporcional ao logaritmo negativo da verossimilhança do dado ( $-\log p(x)$ ), conforme o Teorema da Codificação de Fonte de Shannon.
Métodos existentes que usam roteadores uniformes falham porque não incentivam a redução do comprimento esperado do token, tratando dados com diferentes probabilidades de forma indiferente.

Arquitetura do INFOTOK

O framework transforma um tokenizador de comprimento fixo existente em um adaptativo, adicionando dois componentes principais:

Roteador Baseado em ELBO (Evidence Lower Bound):
- Como calcular a verossimilhança exata $p(x)$ é intratável, o INFOTOK utiliza o ELBO como um limite inferior aproximado e otimizado.
- O roteador calcula o ELBO do vídeo de entrada e determina o número de tokens $N_x$ necessários. A fórmula utilizada é:
  $r_\beta(N_x|x) = \delta\left(\beta \cdot \frac{\text{ELBO}(x)}{\mathbb{E}[\text{ELBO}(x)]}\right)$
  Onde $\beta$ é um fator de compressão controlável. Isso permite que vídeos complexos (alto ELBO negativo) recebam mais tokens e vídeos simples recebam menos.
Compressor Adaptativo (Transformer):
- Dado o orçamento de tokens $N_x$ , o compressor deve reduzir o comprimento da sequência de embeddings fixos.
- Ao invés de simplesmente cortar o início ou o fim da sequência (o que prejudicaria a coerência espaço-temporal), o INFOTOK utiliza uma seleção de tokens baseada na verossimilhança.
- Ele gera uma máscara binária que preserva os $N_x$ tokens com o maior conteúdo de informação (menor valor de ELBO por token, indicando maior surpresa/informação) e descarta os menos informativos.
- A máscara é codificada junto com os tokens discretos, adicionando uma sobrecarga mínima (~5%).
INFOTOK-Flex:
- Uma variante que treina um único compressor capaz de lidar com múltiplos fatores de compressão ( $\beta$ ) simultaneamente, permitindo flexibilidade na inferência sem retreinamento.

3. Contribuições Principais

Prova Teórica de Sub-otimalidade: Demonstração rigorosa de que roteadores adaptativos "data-agnostic" (como amostragem uniforme) são inerentemente tendenciosos e ineficientes, resultando em comprimentos de tokens muito maiores que o ótimo teórico.
Framework Teórico-Prático: Proposta do INFOTOK, que alinha a alocação de tokens com a complexidade informacional do vídeo usando o ELBO, garantindo uma taxa de compressão próxima ao ótimo teórico.
Mecanismo de Compressão Eficiente: Desenvolvimento de um compressor baseado em Transformer que realiza a poda de tokens baseada na informação, preservando a estrutura espaço-temporal crítica para a reconstrução de vídeo.

4. Resultados Experimentais

Os experimentos foram realizados nos conjuntos de dados TokenBench e DAVIS, comparando o INFOTOK com tokenizadores de comprimento fixo (Cosmos, Open-MAGVIT2) e adaptativos (ElasticTok).

Eficiência de Tokens: O INFOTOK economiza aproximadamente 20% de tokens em comparação com o tokenizador Cosmos (estado da arte de comprimento fixo) sem perda de qualidade de reconstrução.
Superioridade sobre Métodos Adaptativos:
- O INFOTOK supera o ElasticTok em 2.3x na taxa de compressão para a mesma qualidade.
- Reduz o FVD (Fréchet Video Distance) em 40-60% e o LPIPS em 25-40% em comparação com o ElasticTok nas mesmas taxas de bits (BPP).
Eficiência de Inferência:
- O ElasticTok requer uma busca binária (múltiplas passagens de rede) para determinar o comprimento ideal, resultando em ~11 avaliações de rede adicionais (NFEs).
- O INFOTOK requer apenas 1 avaliação adicional (para calcular o ELBO), tornando-o 11x mais eficiente em termos de tempo de inferência.
Qualidade de Reconstrução: Mantém métricas de PSNR, SSIM e FVD superiores ou equivalentes aos métodos de referência, mesmo com taxas de compressão muito mais agressivas (ex: BPP16 de 0.56 vs 0.81).

5. Significado e Impacto

O INFOTOK representa um avanço significativo na representação de vídeo para modelos multimodais:

Escalabilidade: Permite o processamento de vídeos longos com uma quantidade de tokens drasticamente reduzida, mitigando o gargalo computacional de arquiteturas Transformer.
Princípio Teórico: Substitui heurísticas de "tentativa e erro" por uma fundamentação teórica sólida baseada na Teoria da Informação, oferecendo um caminho para tokenização adaptativa ideal.
Aplicabilidade: Embora focado em vídeo, o princípio de alocação de recursos baseada na complexidade informacional pode ser estendido para áudio, dados 3D e outras modalidades, influenciando o futuro dos modelos de fundação generativos e de compreensão.

Em resumo, o INFOTOK demonstra que a tokenização adaptativa, quando guiada pela teoria da informação, pode alcançar uma compressão superior e mais eficiente do que os métodos atuais, equilibrando perfeitamente a fidelidade da reconstrução e a eficiência computacional.