EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Each language version is independently generated for its own context, not a direct translation.

🎬 EVATok : Le "Chef d'Orchestre" Intelligent de la Vidéo

Imaginez que vous devez envoyer un film par la poste, mais que votre boîte aux lettres a une taille très limitée.

L'ancienne méthode (les modèles actuels) : Peu importe si le film montre une scène de combat explosive ou un paysage calme où rien ne bouge, on coupe toujours le film en exactement le même nombre de morceaux (des "briques" ou tokens). C'est comme si on utilisait 1000 boîtes pour envoyer un seul caillou, et seulement 100 boîtes pour envoyer un château de sable complexe. C'est du gaspillage !
La nouvelle méthode (EVATok) : C'est un système intelligent qui regarde le film et décide dynamiquement combien de boîtes utiliser pour chaque scène. Si la scène est calme, il utilise peu de boîtes. Si l'action est folle, il en utilise beaucoup.

🧩 Le Problème : Le Gaspillage de Ressources

Les ordinateurs qui créent des vidéos (comme les IA génératives) fonctionnent en transformant les images en une longue liste de petits codes (des tokens).

Le problème : Les méthodes actuelles sont "rigides". Elles allouent le même budget de codes à chaque seconde de vidéo.
La conséquence :
1. On gaspille de l'énergie et du temps de calcul sur des scènes simples (un ciel bleu, un mur blanc).
2. On manque de détails sur les scènes complexes (une explosion, une course poursuite), ce qui rend la vidéo floue ou de mauvaise qualité.

🚀 La Solution : EVATok (Le Système Adaptatif)

EVATok est un cadre de travail en 4 étapes qui apprend à l'IA à être économe et intelligente.

Étape 1 : L'Entraîneur (Le "Proxy Tokenizer")

Imaginez un entraîneur de sport qui teste différentes stratégies sur un athlète. Ici, l'ordinateur essaie de reconstruire des vidéos avec différents nombres de "briques" pour chaque scène. Il note ce qui donne le meilleur résultat : le meilleur équilibre entre une image nette et peu de données utilisées.

Étape 2 : Le Recueil de Données (La "Base de Connaissances")

L'ordinateur prend des milliers de vidéos, teste toutes les stratégies possibles grâce à l'entraîneur, et crée une liste de réponses idéales : "Pour cette vidéo de danse, il faut 500 briques. Pour cette vidéo de nuages, il faut seulement 100 briques."

Étape 3 : Le Prévisionnel (Le "Routeur")

C'est la pièce maîtresse ! Au lieu de tester toutes les stratégies à chaque fois (ce qui prendrait des heures), on entraîne un petit cerveau artificiel très rapide, appelé le Routeur.

L'analogie : C'est comme un chef cuisinier qui, en voyant les ingrédients sur la table, sait immédiatement combien de temps de cuisson il faut sans avoir à tester 10 fois la recette.
Le Routeur regarde une vidéo et dit instantanément : "Pour cette partie, on met beaucoup de détails. Pour cette autre, on simplifie."

Étape 4 : Le Finaliste (Le "Tokeniseur Adaptatif")

Enfin, on entraîne le vrai générateur de vidéos en utilisant les conseils du Routeur. Il apprend à coder la vidéo exactement comme le Routeur l'a prévu : plus de détails là où c'est nécessaire, moins là où ce n'est pas utile.

🌟 Les Résultats Magiques

Grâce à cette méthode, EVATok obtient des résultats impressionnants :

Économie massive : Il utilise 24,4 % de moins de "briques" (tokens) que les meilleurs systèmes actuels. C'est comme réduire la taille d'un fichier vidéo de 25 % sans perdre en qualité.
Meilleure qualité : Parce qu'il ne gaspille pas de ressources sur les scènes simples, il peut investir ces économies dans les scènes complexes. Résultat : les mouvements sont plus fluides et les détails plus nets.
Vitesse : Moins de données à traiter signifie que la génération de vidéos est plus rapide et moins coûteuse en énergie.

💡 En Résumé

EVATok, c'est passer d'une approche "taille unique" (comme un manteau qui va à tout le monde mais ne s'adapte à personne) à une approche sur-mesure (un tailleur intelligent qui ajuste chaque bouton selon la morphologie).

Au lieu de traiter chaque seconde de vidéo de la même manière, EVATok comprend le contenu : il sait quand il faut être précis et quand il peut faire des économies. C'est une avancée majeure pour rendre la création de vidéos par IA plus rapide, moins chère et plus belle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération vidéo autogressifs (AR) reposent sur des tokeniseurs vidéo qui compressent les pixels en séquences de tokens discrets. La longueur de ces séquences est un compromis critique entre la qualité de reconstruction et le coût computationnel de la génération en aval.

Limitation des approches actuelles : La plupart des tokeniseurs existants attribuent une longueur de séquence fixe et uniforme, indépendamment de la complexité du contenu vidéo.
Conséquences : Cette allocation uniforme gaspille des tokens sur des segments statiques, simples ou répétitifs, tout en sous-échantillonnant les segments dynamiques ou complexes. Cela entraîne une inefficacité computationnelle et une perte de fidélité (fidelity) pour les scènes complexes.
Défi non résolu : Il n'existe pas de méthode robuste pour déterminer, pour chaque vidéo individuelle, l'allocation optimale de tokens (répartition temporelle et nombre total) qui maximise le compromis qualité-coût. Les méthodes adaptatives précédentes (basées sur des seuils heuristiques ou des programmes linéaires entiers par lot) sont souvent suboptimales ou trop coûteuses à l'inférence.

2. Méthodologie : Le Framework EVATok

EVATok propose un cadre en quatre étapes pour créer des tokeniseurs vidéo adaptatifs de longueur variable, capables d'attribuer dynamiquement plus de tokens aux contenus complexes et moins aux contenus simples.

Étape 1 : Entraînement d'un Tokeniseur Proxy

Un tokeniseur "proxy" est entraîné pour reconstruire des vidéos selon des attributions de tokens aléatoires (échantillonnées dans un ensemble de candidats).
Architecture : Utilisation d'un tokeniseur 1D de style Q-Former (basé sur des Transformers). Les vidéos sont d'abord patchifiées en embeddings 3D, puis des requêtes 1D sont initialisées par bloc temporel.
Entraînement amélioré : Le modèle intègre un alignement de représentation avec des encodeurs sémantiques vidéo pré-entraînés (ex: V-JEPA2) et utilise un discriminateur (PatchGAN ou VideoMAE) pour améliorer la qualité perceptuelle.

Étape 2 : Curration de Données et Définition de la "Proxy Reward"

L'objectif est d'identifier l'allocation optimale $a^*$ pour chaque vidéo.
Proxy Reward ( $R_{proxy}$ ) : Une nouvelle métrique définie comme :
$R_{proxy} = w_q \cdot Q(E_{proxy}, x, a) - w_l \cdot L(a)$
Où $Q$ est la qualité de reconstruction (ex: LPIPS normalisé), $L$ est le coût en nombre de tokens, et $w_q, w_l$ sont des poids reflétant les préférences utilisateur.
Recherche exhaustive : Pour un ensemble de données (100k clips WebVid), le tokeniseur proxy est utilisé pour évaluer toutes les combinaisons possibles d'attributions. Celle maximisant la $R_{proxy}$ est sélectionnée comme "vérité terrain" ( $a^*$ ).

Étape 3 : Entraînement d'un Routeur (Router)

Pour éviter la recherche exhaustive coûteuse lors de l'inférence, un modèle léger (un Router de type ViT) est entraîné.
Tâche : Classification supervisée. Le routeur prend une vidéo en entrée et prédit l'allocation optimale $a^*$ (parmi les $m^T$ candidats possibles) apprise à l'étape 2.
Cela permet de prédire l'allocation en un seul passage (one-pass).

Étape 4 : Entraînement du Tokeniseur Adaptatif Final

Un tokeniseur final est entraîné de zéro, conditionné par les prédictions du routeur.
Résolution du "Training-Inference Gap" : Contrairement aux méthodes précédentes où le tokeniseur devait apprendre toutes les allocations possibles (ce qui dilue l'apprentissage), EVATok entraîne le modèle final uniquement sur les allocations optimales prédites par le routeur. Cela assure une meilleure spécialisation et performance.

3. Contributions Clés

Framework en 4 étapes : Une pipeline complète pour l'entraînement de tokeniseurs adaptatifs, intégrant un routeur pour la prédiction d'allocation optimale.
Proxy Reward : Introduction d'une métrique novatrice combinant qualité de reconstruction et coût en tokens pour identifier objectivement la meilleure allocation pour chaque vidéo.
Alignement Sémantique : Démonstration que l'intégration d'encodeurs sémantiques vidéo (comme VideoMAE) en tant que discriminateurs améliore significativement la qualité de reconstruction et la génération, même si cela réduit légèrement les métriques pixel-à-pixel (PSNR/LPIPS) au profit de la perception visuelle (moins de flou, moins d'artefacts temporels).
Génération AR Efficace : Preuve que les modèles de génération autogressifs (AR) entraînés sur des séquences de tokens de longueur variable surpassent les modèles à longueur fixe, avec une réduction significative du nombre de tokens générés.

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données UCF-101, K600 et WebVid-10M.

Efficacité et Qualité :
- EVATok réalise des économies de tokens d'au moins 24,4 % par rapport aux méthodes state-of-the-art (SOTA) comme LARP et aux bases fixes, tout en maintenant ou en améliorant la qualité de reconstruction (mesurée par LPIPS et rFVD).
- Sur UCF-101, le routeur permet d'économiser 27,7 % de tokens pour la génération de vidéos (class-to-video) avec un meilleur FVD de génération (gFVD).
Performance de Génération :
- Le modèle AR entraîné avec EVATok atteint un gFVD de 48 sur UCF-101 (SOTA), surpassant LARP (gFVD 57) avec moins de tokens.
- Sur la tâche de prédiction de trames K600, EVATok obtient le meilleur gFVD avec 15,8 % de tokens générés en moins.
Comparaison avec les Heuristiques :
- La stratégie de recherche par "Proxy Reward" surpasse nettement les méthodes basées sur des seuils fixes (comme ElasticTok), qui ne parviennent pas à optimiser le compromis global qualité-coût.

5. Signification et Impact

Changement de paradigme : EVATok démontre que l'allocation de tokens ne doit pas être uniforme mais adaptative au contenu. Les segments dynamiques reçoivent plus de tokens, les segments statiques moins.
Efficacité Déployable : En réduisant la longueur des séquences de tokens sans sacrifier la qualité, EVATok réduit directement le coût de calcul et de mémoire pour les modèles de génération vidéo autogressifs, rendant la génération de haute qualité plus accessible.
Généralisation : La méthode s'applique aussi bien à la reconstruction qu'à la génération, et les auteurs montrent qu'elle peut être adaptée aux images (bien que les gains soient moindres que pour la vidéo en raison de la redondance temporelle).

En résumé, EVATok résout le problème de l'inefficacité des tokeniseurs vidéo fixes en introduisant une approche d'apprentissage par renforcement implicite (via le routeur et la proxy reward) pour allouer les ressources computationnelles là où elles sont le plus nécessaires, établissant ainsi un nouvel état de l'art pour la génération vidéo autogressive.