InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Each language version is independently generated for its own context, not a direct translation.

🎬 INFOTOK : Le Caméraman Intelligents qui ne filme que l'essentiel

Imaginez que vous devez envoyer une vidéo de 10 minutes à un ami via un réseau très lent. Si vous envoyez chaque image brute, cela prendra des heures. Si vous compressez tout de la même manière (comme un fichier ZIP classique), vous risquez de perdre des détails importants ou, au contraire, de gaspiller de la place sur des parties ennuyeuses (comme un ciel bleu sans nuages).

C'est exactement le problème que les chercheurs ont résolu avec INFOTOK.

1. Le Problème : Le "Marteau-Piqueur" vs Le "Chirurgien"

Aujourd'hui, la plupart des systèmes qui convertissent les vidéos en données numériques (ce qu'on appelle des tokenizers) fonctionnent comme un marteau-piqueur.

Ils découpent la vidéo en petits morceaux de taille fixe.
Que la vidéo montre une personne qui dort (très calme) ou une bagarre de chats (très mouvementée), ils utilisent le même nombre de "morceaux" (tokens) pour tout décrire.
Résultat : Pour les scènes calmes, ils gaspillent de la place (redondance). Pour les scènes chaotiques, ils n'ont pas assez de place pour tout dire (perte d'information).

2. La Solution : INFOTOK, le Caméraman Intuitif

INFOTOK est comme un caméraman très intelligent qui a lu la théorie de l'information de Shannon (un peu comme la physique des données). Au lieu de filmer tout le temps de la même façon, il adapte son objectif en temps réel.

Voici comment il fonctionne, avec une analogie simple :

Le Scénario Calme (Le chien qui dort) :
Imaginez une vidéo où un chien dort paisiblement. Il ne bouge presque pas. INFOTOK se dit : "Pas besoin de filmer chaque poil à chaque seconde, le cerveau du spectateur peut deviner la suite."
👉 Action : Il envoie très peu de données (peu de "tokens"). C'est comme si vous disiez : "C'est juste un chien qui dort, continuez à dormir."
Le Scénario Chaotique (La bagarre de chats) :
Soudain, deux chats se battent, les pattes volent partout. INFOTOK se dit : "Oh là là, il y a beaucoup d'informations nouvelles ici ! Il faut tout capturer."
👉 Action : Il envoie beaucoup plus de données pour décrire chaque mouvement précis.

3. Comment fait-il ça ? (La Magie Mathématique)

Le papier explique que INFOTOK utilise une formule mathématique appelée ELBO (une sorte de "jauge de complexité").

Avant de compresser, le système "regarde" la vidéo et calcule : "Combien d'informations nouvelles y a-t-il ici ?"
Si la jauge est basse (ennui), il compresse fort.
Si la jauge est haute (action), il compresse moins.

C'est comme si vous écriviez un résumé d'un livre :

Pour un chapitre où rien ne se passe, vous écrivez : "Ils ont mangé et dormi." (2 mots).
Pour un chapitre où tout explose, vous écrivez un long paragraphe détaillé.
Le résultat : Votre résumé est beaucoup plus court, mais vous avez tout l'essentiel.

4. Les Résultats : Plus rapide, plus léger, aussi beau

Les chercheurs ont testé INFOTOK et ont obtenu des résultats impressionnants :

Économie de place : Ils ont réduit le nombre de données nécessaires de 20 % à 50 % sans perdre de qualité.
Vitesse : Contrairement aux anciennes méthodes qui devaient essayer plusieurs tailles de compression (comme chercher une clé dans un trousseau), INFOTOK trouve la bonne taille du premier coup. C'est 2,3 fois plus efficace que les méthodes précédentes.
Qualité : Même avec moins de données, la vidéo reconstruite est aussi nette que la originale.

🌟 En Résumé

INFOTOK est un nouveau système qui apprend à ne pas gaspiller d'énergie.

Les anciennes méthodes traitaient toutes les vidéos comme si elles étaient également complexes.
INFOTOK, lui, comprend que le monde est variable. Il donne plus de "carburant" (données) aux moments intéressants et moins aux moments calmes.

C'est une avancée majeure pour l'avenir de l'intelligence artificielle, permettant de stocker et d'envoyer des vidéos ultra-longues ou ultra-détaillées beaucoup plus facilement, un peu comme passer d'un camion de déménagement vide à un camion parfaitement chargé.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La tokenisation discrète des vidéos est essentielle pour le traitement de séquences vidéo longues par les modèles de fondation (comme les LLMs multimodaux). Cependant, les méthodes actuelles souffrent de limitations majeures :

Compression rigide : Les tokeniseurs existants (ex: VQGAN, Cosmos) utilisent un taux de compression fixe, générant un nombre de tokens constant pour toutes les vidéos, indépendamment de leur complexité.
Inefficacité : Cela entraîne une redondance pour les vidéos simples (scènes statiques) et une perte d'information pour les vidéos complexes (mouvements rapides, changements de scène), rendant le traitement de longues séquences coûteux en calcul et en mémoire.
Limites des approches adaptatives existantes : Des travaux récents comme ElasticTok tentent d'adapter la longueur des tokens via des méthodes heuristiques (masquage aléatoire, recherche par essais-erreurs). Le papier démontre que ces méthodes sont biaisées et sous-optimales, car elles ne tiennent pas compte de la densité d'information réelle du contenu, conduisant à des longueurs de séquences attendues bien supérieures à l'optimum théorique.

2. Méthodologie : INFOTOK

INFOTOK est un cadre de tokenisation adaptatif fondé sur la théorie de l'information de Shannon. Il transforme un tokeniseur à compression fixe existant en un système adaptatif via deux composants clés :

A. Théorie et Preuve de Sous-Optimalité

Les auteurs prouvent rigoureusement (Théorème 2.1 et 2.2) que les tokeniseurs à taux fixe ou adaptatif "agnostique aux données" (qui ne considèrent pas la probabilité du contenu) sont intrinsèquement biaisés. Selon le théorème du codage source de Shannon, la longueur optimale des tokens $N_x$ pour une vidéo $x$ doit être proportionnelle à son information négative (entropie), soit $N_x \approx -\log p(x)$ . Les méthodes uniformes échouent à atteindre cette borne.

B. Le Routeur basé sur l'ELBO (Evidence Lower Bound)

Pour déterminer dynamiquement la longueur de la séquence de tokens $N_x$ sans calculer la vraisemblance exacte (intractable), INFOTOK utilise une borne inférieure de la vraisemblance (ELBO) :

Fonctionnement : Un routeur calcule l'ELBO de la vidéo d'entrée. La longueur cible $N_x$ est définie comme proportionnelle à l'ELBO normalisé :
$r_\beta(N_x|x) = \delta\left(\beta \cdot \frac{\text{ELBO}(x)}{\mathbb{E}[\text{ELBO}(x)]}\right)$
où $\beta$ est un facteur de compression moyen.
Avantage : Cela permet d'allouer plus de tokens aux vidéos complexes (faible ELBO, haute incertitude) et moins aux vidéos simples (fort ELBO, haute prédictibilité), sans nécessiter de recherche exhaustive (brute-force) lors de l'inférence.

C. Compresseur Adaptatif

Une fois la longueur $N_x$ déterminée, un compresseur basé sur des Transformers réduit la séquence d'embeddings fixes en une séquence plus courte :

Sélection de tokens : Au lieu de simplement tronquer la séquence, le compresseur masque les tokens ayant la plus faible information (les plus prévisibles, c'est-à-dire ceux avec les valeurs ELBO les plus élevées).
Mécanisme : Un masque binaire est généré pour conserver les $N_x$ tokens les plus informatifs. Ce masque est encodé dans la séquence de tokens discrète (surcharge minime d'environ 5%).
Architecture : Le système s'appuie sur l'encodeur/décodeur existant (ex: Cosmos Tokenizer) et ajoute un module compresseur/décompresseur léger (8 couches de Transformers) pour gérer la variation de longueur.

3. Contributions Clés

Preuve théorique : Démonstration rigoureuse que les méthodes de tokenisation adaptatives actuelles (basées sur des routers uniformes ou heuristiques) sont sous-optimales par rapport à la borne de Shannon.
Cadre INFOTOK : Proposition d'une méthode de tokenisation adaptative fondée sur l'ELBO, garantissant une allocation de tokens proche de l'optimum théorique en fonction de la complexité informationnelle de la vidéo.
Efficacité d'inférence : Élimination de la nécessité de recherches itératives (comme la recherche binaire dans ElasticTok) pour déterminer la longueur des tokens, réduisant drastiquement le temps d'inférence.
Flexibilité (INFOTOK-Flex) : Introduction d'une variante capable d'ensembler plusieurs taux de compression ( $\beta$ ) en un seul modèle, permettant une adaptation dynamique sans réentraînement.

4. Résultats Expérimentaux

Les expériences ont été menées sur les ensembles de données TokenBench et DAVIS (vidéos 256x256).

Qualité de reconstruction : INFOTOK atteint des performances de pointe (SOTA).
- À taux de compression égal, il surpasse ElasticTok avec une réduction de 40-60% du FVD (Fréchet Video Distance) et une amélioration de 1.0-2.0 dB du PSNR.
- Il surpasse les tokeniseurs fixes (comme Cosmos-DV) tout en utilisant 20% de tokens en moins.
Efficacité de compression :
- INFOTOK peut atteindre des taux de compression 2.3 fois supérieurs à ceux de ElasticTok tout en maintenant une qualité supérieure.
- Il permet d'économiser environ 50% de tokens par rapport aux tokeniseurs fixes sans perte de qualité perceptible.
Efficacité d'inférence (NFEs) :
- Contrairement à ElasticTok qui nécessite environ 12 évaluations de réseau (NFEs) par vidéo (recherche binaire), INFOTOK n'en nécessite que 2 (un passage pour l'encodeur/ELBO et un pour le décodeur).
- Cela se traduit par une latence d'inférence 10 fois plus faible (1.23s contre 13.45s pour ElasticTok sur un GPU RTX A5000).

5. Signification et Impact

INFOTOK représente une avancée majeure pour les modèles multimodaux et la génération vidéo :

Optimisation des ressources : En adaptant la complexité de la représentation à la complexité du contenu, INFOTOK réduit considérablement la charge computationnelle pour les séquences longues, rendant le traitement de vidéos de haute résolution plus viable.
Fondement théorique : Le passage d'approches heuristiques à une approche fondée sur la théorie de l'information (Shannon) offre une voie plus robuste et généralisable pour la compression adaptative.
Généralisation : Bien que focalisé sur la vidéo, le cadre est applicable à d'autres modalités (audio, données 3D) où la densité d'information varie spatialement ou temporellement.

En résumé, INFOTOK résout le goulot d'étranglement de la tokenisation vidéo rigide en introduisant une compression "consciente de la difficulté", offrant un équilibre optimal entre fidélité de reconstruction et efficacité des tokens.