SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de faire voyager un chef d'orchestre très talentueux (le modèle d'intelligence artificielle qui crée des vidéos) dans une petite voiture de ville (votre téléphone ou votre ordinateur portable). Le problème ? Le chef d'orchestre est énorme, il a besoin de beaucoup d'espace et d'énergie pour diriger son symphonie. Si vous essayez de le mettre dans la petite voiture, il ne rentre pas, ou alors il faut qu'il se taise pour économiser de l'énergie, ce qui rend la musique (la vidéo) horrible.

C'est là que le SemanticDialect entre en jeu. C'est une nouvelle méthode intelligente pour "réduire la taille" de ce chef d'orchestre sans qu'il perde son talent.

Voici comment ça marche, expliqué simplement :

1. Le Problème : La "Grosse Valise" et la "Petite Voiture"

Les modèles qui créent des vidéos (comme Open-Sora) sont très lourds. Pour les faire tourner sur des appareils ordinaires, on utilise une technique appelée quantification. C'est comme essayer de ranger une valise pleine de vêtements de luxe dans un petit sac à dos.

L'ancien problème : Les méthodes précédentes essayaient de tout mettre dans le même type de sac (par exemple, tout en 4 bits). Mais comme les vidéos ont des parties très différentes (un ciel bleu uniforme vs un visage détaillé), utiliser le même "sac" pour tout gâche la qualité. Le visage devient flou ou bizarre.

2. La Solution : Le "Dialecte" Intelligent

Les auteurs appellent leur méthode SemanticDialect. Imaginez que vous avez un livre de recettes (le "formatbook") avec 32 types de sacs différents, chacun adapté à une situation précise.

Le choix du bon sac (Dialecte) : Au lieu de forcer tous les vêtements dans le même sac, le système regarde chaque petit morceau de la vidéo (un bloc de pixels) et choisit instantanément le sac parfait pour lui.
- Analogie : Si le morceau de vidéo est un ciel bleu uni, on utilise un petit sac léger. Si c'est un visage avec des détails complexes, on utilise un sac plus robuste.
La vitesse (Table de consultation) : Choisir le bon sac à la volée est normalement très lent. Les auteurs ont créé des tableaux de référence (comme des cartes de triche ultra-rapides) qui permettent de faire ce choix en une fraction de seconde, sans ralentir la création de la vidéo.

3. L'astuce de génie : "La Correction d'Erreur"

Même avec le bon sac, il reste toujours un tout petit peu de poussière (une erreur de compression) qui ne rentre pas.

L'ancienne méthode : On laissait la poussière là, et la vidéo devenait sale.
La méthode SemanticDialect : Ils utilisent une technique appelée décomposition d'activation. C'est comme si, après avoir rangé les vêtements, on prenait la poussière restante, on la secouait dans un tout petit sac spécial, et on la remettait par-dessus. Résultat : la valise est compacte, mais le contenu est presque parfait.
Le filtre intelligent : Ils ne font cette correction que pour les "étoiles" de la vidéo (les parties importantes comme un visage ou un objet en mouvement), pas pour le fond ennuyeux. C'est comme dire : "On ne nettoie que la vaisselle sale, pas les couverts qui brillent déjà".

4. La Cohérence : "Le Groupe de Copains"

C'est la partie la plus intelligente : l'attribution de dialecte sémantique.

Le problème : Imaginez que vous filmez un chien qui court. Si le système choisit un "sac" différent pour la patte gauche à la seconde 1 et un autre pour la patte droite à la seconde 2, le chien pourrait sembler trembler ou changer de couleur bizarrement.
La solution : SemanticDialect regarde la vidéo et dit : "Attends, ce chien et cet arbre sont liés sémantiquement". Il force les parties liées (comme les pixels d'un même objet qui bougent) à utiliser le même type de sac.
Analogie : C'est comme si vous organisiez un voyage de groupe. Au lieu que chaque personne prenne son propre ticket de train au hasard, vous dites : "Toi, toi et toi, vous êtes un groupe, vous prenez le même train ensemble". Cela évite que le groupe se perde ou arrive à des moments différents.

En Résumé

SemanticDialect est comme un organisateur de voyage ultra-efficace pour les vidéos générées par IA :

Il choisit le meilleur sac pour chaque petit détail de la vidéo (grâce à un livre de recettes géant).
Il utilise des cartes de triche pour faire ce choix très vite.
Il récupère la poussière (les erreurs) pour remettre les détails importants en place.
Il s'assure que les amis (les objets liés) voyagent toujours ensemble pour ne pas casser l'histoire de la vidéo.

Le résultat ? On peut faire tourner des modèles de création de vidéo super puissants sur des appareils plus petits, avec une qualité presque aussi belle que la version originale, sans que la vidéo ne devienne floue ou bizarre. C'est une révolution pour rendre l'IA vidéo accessible à tout le monde, partout.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Transformers de Diffusion (DiT) ont révolutionné la génération de vidéo en offrant une qualité supérieure et une meilleure capture des contextes spatio-temporels à long terme. Cependant, leur déploiement sur des appareils périphériques (edge devices) est entravé par des coûts de calcul et de mémoire prohibitifs, exacerbés par la nécessité de multiples itérations de débruitage et la longueur des séquences vidéo.

La quantification (réduction de la précision des poids et des activations) est une solution courante, mais son application aux DiT vidéo (VDiT) pose deux défis majeurs :

Variation élevée des activations : La présence d'outliers (valeurs extrêmes) dans les activations peut dominer les facteurs d'échelle, réduisant la résolution effective pour la majorité des éléments.
Corrélations spatio-temporelles : Les méthodes de quantification existantes, souvent basées sur des objectifs MSE (Erreur Quadratique Moyenne) simples, ne capturent pas bien les dépendances sémantiques et temporelles cruciales pour la cohérence vidéo. De plus, les méthodes de quantification par blocs existantes peuvent introduire des incohérences si des tokens sémantiquement liés sont quantifiés différemment selon les blocs.

2. Méthodologie : SemanticDialect

Les auteurs proposent SemanticDialect, une méthode de quantification post-entraînement (PTQ) pour les VDiT, basée sur une représentation mixte fine par bloc en 4 bits (format SD4). L'approche repose sur trois piliers techniques :

A. Formatbook Expressif et Sélection par Table de Recherche (LUT)

Au lieu d'utiliser un seul format de faible précision, SemanticDialect sélectionne dynamiquement le format optimal pour chaque bloc à partir d'un ensemble prédéfini appelé formatbook.

Formatbook étendu : Pour gérer la forte variabilité des activations VDiT, le formatbook est étendu à 32 dialectes (contre 16 dans les travaux précédents). Chaque dialecte est une variante de format 4 bits avec des valeurs représentables légèrement différentes, conçues pour couvrir différentes plages dynamiques et densifier les petites valeurs (là où la majorité des activations se concentrent).
Sélection efficace via LUT : Pour éviter le coût computationnel élevé d'une sélection de format par calcul d'erreur MSE complet en temps réel, les auteurs utilisent des tables de recherche (LUT).
- Une extraction de maximum par groupe (au lieu d'un tri complet) identifie les valeurs dominantes.
- Des LUT (Qvalue et Qerror) permettent d'estimer rapidement l'erreur de quantification et de sélectionner le dialecte optimal avec un coût en ligne minimal.

B. Décomposition des Activations (Activation Decomposition)

Pour les couches sensibles à la quantification (comme les couches de modulation ou les projections finales), la méthode introduit une décomposition des activations :

L'activation $A$ est décomposée en une partie quantifiée $Q(A)$ et un résidu $\Delta = A - Q(A)$ .
Le résidu est lui-même re-quantifié ( $Q(\Delta)$ ) et ajouté à la sortie.
Sélection de tokens saillants : Pour éviter d'augmenter la largeur de bits effective pour tous les tokens, la re-quantification du résidu n'est appliquée qu'aux tokens saillants (les plus importants). Ces tokens sont identifiés par des scores d'attention guidés (utilisant ReLU pour l'attention temporelle et ABS pour l'attention spatiale/3D) au sein de tuiles spatio-temporelles.

C. Attribution de Dialecte Sensible au Sémantique (SeDA)

Pour résoudre le problème d'incohérence spatio-temporelle causé par la sélection de dialectes trop locale (qui peut briser la cohérence visuelle entre des tokens liés), les auteurs proposent SeDA (Semantic-Aware Dialect Assignment) :

Principe : Les tokens sémantiquement corrélés (identifiés via les scores d'attention) sont contraints de partager le même sous-formatbook (un sous-ensemble de 8 dialectes).
Mécanisme : Au lieu de forcer un dialecte unique, SeDA assure que les tokens liés utilisent le même ensemble de 8 options, préservant ainsi la cohérence des valeurs quantifiées tout en permettant une adaptation fine à la plage dynamique locale.
Optimisation : Pour réduire la surcharge de calcul, le processus d'identification des tokens "ancres" et corrélés est optimisé en sautant les étapes de débruitage instables (début) et en mettant à jour les tokens moins fréquemment dans la phase stable.

3. Contributions Clés

SD4 (SemanticDialect 4-bit) : Un format de quantification 4 bits sans calibration, utilisant un formatbook de 32 dialectes et des LUT pour une sélection de format par bloc efficace et précise.
Décomposition d'activation avec sélection de tokens : Une technique pour récupérer les erreurs de quantification dans les couches sensibles sans surcharge de précision mixte, en ciblant uniquement les tokens les plus informatifs via l'attention.
SeDA : Un mécanisme d'attribution de dialecte qui améliore la cohérence spatio-temporelle en alignant les sous-formatbooks des tokens sémantiquement liés.
Performance supérieure : Démonstration que SemanticDialect surpasse les méthodes de quantification VDiT existantes et les bases de formats mixtes par blocs fins, approchant la qualité FP16 sur Open-Sora 2.0.

4. Résultats Expérimentaux

Les expériences ont été menées sur Open-Sora 1.0 (attention factorisée) et Open-Sora 2.0 (attention 3D complète).

Qualité Visuelle : SemanticDialect atteint des performances proches du modèle de référence FP16 (écart d'environ 2,3 points sur les métriques de qualité esthétique et d'imagerie pour Open-Sora 1.0 avec une taille de bloc de 16).
Comparaison avec l'état de l'art :
- Il surpasse nettement les méthodes précédentes comme ViDiT-Q, Q-VDiT, et les formats standards MXFP4 et NVFP4.
- Il génère des vidéos lisibles et cohérentes même avec une taille de bloc de 32, là où d'autres méthodes échouent (produisant du bruit ou une incohérence de scène).
Métriques : Sur le benchmark VBench, SemanticDialect obtient les meilleurs scores pour la cohérence du sujet, la cohérence de l'arrière-plan, la fluidité du mouvement et la qualité esthétique.
Analyse ablation : Les études montrent que la sélection de tokens par attention (plutôt que par magnitude ou aléatoire) et l'utilisation de SeDA sont essentielles pour maintenir la cohérence temporelle et la qualité sémantique.

5. Signification et Impact

Ce travail est significatif car il démontre qu'une quantification mixte fine et évolutive est réalisable pour les modèles de génération vidéo complexes sans nécessiter de calibration lourde ou de matériel spécialisé coûteux.

Déploiement Edge : En réduisant drastiquement la mémoire et les besoins de calcul (activation et poids à 4 bits) tout en préservant la qualité vidéo, SemanticDialect ouvre la voie au déploiement de modèles de diffusion vidéo sur des appareils périphériques.
Préservation de la Sémantique : L'introduction de la conscience sémantique (SeDA) dans la quantification marque une avancée conceptuelle, passant d'une optimisation purement statistique locale à une optimisation respectant la structure globale de la vidéo.
Efficacité : L'utilisation de tables de recherche (LUT) pour la sélection de format résout le goulot d'étranglement computationnel des méthodes de quantification mixte, rendant la méthode compatible avec les contraintes temps réel.

En résumé, SemanticDialect établit un nouvel état de l'art pour la quantification des Transformers de diffusion vidéo, prouvant qu'une compression agressive (4 bits) peut coexister avec une haute fidélité visuelle et temporelle.