Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : La Cuisine Vidéo qui Ralentit

Imaginez que vous êtes un chef étoilé (une intelligence artificielle) qui doit créer un film entier, image par image, à partir d'une simple phrase comme "Un panda boit un café à Paris".

Pour faire cela, l'IA utilise un modèle appelé Transformer. C'est un chef extrêmement talentueux, mais il a un défaut majeur : il est très lent. Pourquoi ? Parce qu'à chaque étape de la création d'une image, il doit vérifier la relation entre chaque pixel de l'image et tous les autres pixels en même temps.

C'est comme si, pour écrire une seule phrase de votre roman, vous deviez lire et comparer chaque mot de tout le livre avec chaque autre mot. C'est épuisant et cela prend énormément de temps (des heures pour un court métrage). C'est ce qu'on appelle l'attention dense : tout le monde parle à tout le monde, tout le temps.

🔍 La Découverte : Le Chef a des "Habitudes"

Les auteurs de cet article (Shai Yehezkel et son équipe chez Apple) ont observé ce chef en action et ont remarqué quelque chose de fascinant :

La plupart des conversations sont inutiles : Dans 90 % des cas, le chef ne regarde pas vraiment tous les pixels. Il ignore la plupart d'entre eux car ils ne sont pas importants pour l'image qu'il crée à cet instant.
Les habitudes sont répétitives : Peu importe si le chef dessine un panda ou un astronaute, il a tendance à ignorer les mêmes zones de l'image, aux mêmes moments, dans les mêmes couches de son cerveau numérique. C'est comme si un musicien jouait toujours les mêmes fausses notes qu'il ne corrigeait jamais, peu importe la chanson.

💡 La Solution : CalibAtt (Le Chef Calibré)

Au lieu de forcer le chef à tout vérifier à chaque fois, ils ont inventé CalibAtt. Voici comment ça marche, avec une analogie simple :

1. La Phase de "Répétition" (Calibration)

Avant de commencer à cuisiner pour de vrai, le chef fait une répétition générale avec quelques recettes d'entraînement (des prompts).

Il regarde attentivement : "Ah, quand je dessine un visage, je n'ai jamais besoin de vérifier les pixels du fond de la pièce."
Il note ces habitudes sur une liste de contrôle (une "masque binaire"). Il dit : "Pour cette étape, ignore les pixels A, B et C. Concentre-toi seulement sur D, E et F."

Cette étape ne se fait qu'une seule fois, hors ligne. C'est comme si le chef préparait son plan de travail avant d'ouvrir le restaurant.

2. La Phase de "Service" (Inférence)

Quand le client commande "Un panda à Paris", le chef sort sa liste de contrôle préparée à l'avance.

Au lieu de vérifier 100 % des pixels, il saute directement les zones inutiles (les pixels du fond, les zones sombres, etc.).
Il ne travaille que sur les zones importantes.
Résultat ? Il va beaucoup plus vite, mais le plat (la vidéo) a exactement le même goût (la même qualité).

🚀 Les Deux Astuces Magiques

L'article mentionne deux techniques principales utilisées par CalibAtt :

Le "Saut de Blocs" (Sparse Attention) :
Imaginez que votre livre est découpé en pages. Au lieu de lire chaque mot de chaque page, CalibAtt dit : "Pour cette page, je ne vais lire que les paragraphes 1 et 3. Les paragraphes 2 et 4 sont inutiles." Il saute des blocs entiers de calcul.
La "Répétition Spatiale" :
Dans une vidéo, les lignes horizontales d'une image sont souvent très similaires (le ciel est bleu partout en haut, l'herbe verte partout en bas).
CalibAtt se dit : "Je n'ai pas besoin de calculer la couleur du ciel pour chaque ligne. Je calcule pour la ligne du haut, et je copie le résultat pour les 10 lignes suivantes." C'est comme faire un photocopie au lieu de redessiner chaque feuille.

🏆 Les Résultats : Plus Vite, Sans Perte de Qualité

Grâce à cette méthode, les résultats sont impressionnants :

Vitesse : Ils ont gagné jusqu'à 1,58 fois plus de vitesse. Un film qui prenait 20 minutes à générer n'en prend plus que 13.
Économie : Ils ont sauté jusqu'à 68 % des calculs inutiles.
Qualité : La vidéo finale est indiscernable de celle générée par la méthode lente. Le panda boit toujours son café avec le même sourire.

🌟 En Résumé

CalibAtt, c'est comme donner à un chef cuisinier génial mais lent un guide de cuisine pré-écrit. Ce guide lui dit exactement quels ingrédients il peut ignorer à chaque étape de la recette, en se basant sur ce qu'il a appris lors de répétitions précédentes.

Le résultat ? Il prépare le repas deux fois plus vite, sans que le client ne s'aperçoive qu'on a coupé des étapes inutiles. C'est une méthode "sans entraînement" (training-free), ce qui signifie qu'on peut l'appliquer à n'importe quel modèle vidéo existant sans avoir à le réapprendre de zéro.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de diffusion basés sur des transformateurs ont révolutionné la génération de vidéos de haute qualité. Cependant, leur déploiement est entravé par des temps d'inférence extrêmement longs. Le goulot d'étranglement principal réside dans le mécanisme d'attention spatiotemporelle au sein des backbones transformateurs.

Complexité Quadratique : L'attention standard a une complexité quadratique par rapport à la longueur de la séquence (nombre de tokens), ce qui devient prohibitif pour les vidéos haute résolution et longues.
Limites des solutions existantes : Des méthodes comme FlashAttention optimisent l'utilisation de la mémoire et de la bande passante, mais ne réduisent pas le nombre d'opérations de multiplication. Les méthodes d'attention éparsée (sparse attention) existantes nécessitent souvent un fine-tuning coûteux du modèle ou utilisent des masques statiques fixes qui ne s'adaptent pas bien à la diversité des entrées et des étapes de diffusion.

L'objectif de cet article est de proposer une méthode sans entraînement (training-free) capable d'accélérer l'inférence en exploitant la structure intrinsèque des cartes d'attention des modèles pré-entraînés.

2. Méthodologie : CalibAtt

Les auteurs proposent CalibAtt, une méthode qui identifie et exploite deux types de redondances dans les cartes d'attention : la sparsité au niveau des blocs et la répétition spatiale. La méthode repose sur une phase de calibration hors ligne (offline) suivie d'une inférence optimisée.

A. Observations Fondamentales

L'analyse des cartes d'attention (post-softmax) dans des modèles comme Wan 2.1 et Mochi 1 révèle quatre observations clés :

Sparsité : Une grande fraction des connexions token-à-token a des scores négligeables, même au niveau des blocs.
Hétérogénéité : Les motifs d'attention varient considérablement selon la couche, la tête d'attention et l'étape de diffusion ( $t$ ). Un masque fixe global est inefficace.
Indépendance des données : Les motifs de sparsité sont stables et répétitifs à travers différents prompts textuels et bruits initiaux.
Répétition spatiale : Pour certaines cartes d'attention, les scores sont très similaires pour les lignes spatiales d'une même image. On peut donc calculer l'attention pour une seule ligne "ancrage" et la propager aux autres.

B. Phase de Calibration (Offline)

Pour chaque combinaison (étape de diffusion $t$ , couche $l$ , tête $h$ ), le système génère un masque binaire optimisé :

Sélection de blocs basée sur l'énergie :
- La matrice d'attention est divisée en blocs de taille $B \times B$ (compatible avec FlashAttention).
- Pour chaque bloc de requêtes, on calcule l'énergie (somme des scores d'attention) vers les blocs de clés.
- On sélectionne le nombre minimal de blocs de clés nécessaires pour atteindre un seuil d'énergie cumulé $\epsilon(t)$ , qui varie selon l'étape de diffusion (plus strict au début du processus de débruitage pour préserver la qualité).
Agrégation inter-prompts :
- Les masques binaires sont calculés sur un ensemble de calibration (ex: 64 prompts).
- On moyenne ces masques pour obtenir une probabilité de conservation par bloc.
- Un seuil d'accord $\rho$ (ex: 0.5) est appliqué pour produire un masque binaire final robuste, indépendant de l'entrée spécifique.
Détection de répétition spatiale :
- On calcule la similarité cosinus entre les lignes spatiales d'une même image.
- Si la similarité dépasse un seuil $\gamma$ , la tête est marquée comme "répétitive". Seules quelques lignes ancrées sont calculées, et le résultat est diffusé aux autres lignes.

C. Phase d'Inférence (Online)

Masques pré-calculés : Les masques binaires et les listes de saut (skip lists) sont stockés en mémoire avant l'inférence.
Implémentation CUDA : Un noyau CUDA personnalisé, basé sur FlashAttention 3, utilise ces listes de saut pour sauter les calculs de blocs inutiles sans overhead de temps d'inférence.
Gestion des têtes répétitives : Pour les têtes identifiées comme répétitives, le noyau calcule l'attention uniquement sur les lignes ancrées et effectue une opération de broadcasting pour remplir le reste.

3. Contributions Clés

Méthode sans entraînement (Training-Free) : CalibAtt s'adapte à n'importe quel modèle de diffusion vidéo pré-entraîné (Wan 2.1, Mochi 1, LightX2V) sans nécessiter de ré-entraînement ou de fine-tuning.
Calibration Automatique et Adaptative : Contrairement aux masques statiques, CalibAtt génère des masques spécifiques pour chaque couche, chaque tête et chaque étape de diffusion, maximisant ainsi la sparsité sans perte de qualité.
Double Stratégie d'Accélération : Combinaison unique de la sparsité au niveau des blocs (block-level sparsity) et de la réduction de la complexité via la répétition spatiale (spatial row repetition).
Implémentation Efficace : Développement d'un noyau CUDA optimisé compatible avec FlashAttention 3, utilisant des listes de saut pré-calculées pour un accès mémoire efficace.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de pointe (Wan 2.1 14B, Mochi 1, LightX2V) à différentes résolutions (480p, 720p).

Accélération : CalibAtt atteint un speedup de 1,58x (end-to-end) sur Wan 2.1 14B en 720p, surpassant les méthodes de référence comme SpargeAttention, RadialAttention et SparseVideoGen2.
Sparsité : La méthode atteint des taux de sparsité élevés (jusqu'à 68-74% de connexions sautées) tout en maintenant la qualité.
Qualité : Les métriques VBench (Qualité Sémantique, Qualité Globale, Alignement Texte-Vidéo) restent comparables, voire légèrement supérieures, à l'attention dense (Dense Attention). La fidélité visuelle et la cohérence temporelle sont préservées.
Robustesse : La méthode fonctionne efficacement sur des modèles distillés (LightX2V, 4 étapes) où les méthodes concurrentes souffrent souvent d'un surcoût d'inférence qui annule les gains.
Coût de Calibration : Le coût de la phase de calibration est faible (quelques heures GPU) et peut être réduit drastiquement (13,7 heures GPU) en utilisant moins de prompts de calibration sans impact significatif sur la qualité finale.

5. Signification et Impact

Ce travail démontre que les modèles de diffusion vidéo modernes contiennent une redondance structurelle massive et prévisible dans leurs mécanismes d'attention. En exploitant cette redondance via une calibration hors ligne intelligente, il est possible de réduire considérablement le coût computationnel de la génération vidéo.

Accessibilité : En rendant la génération vidéo haute résolution plus rapide et moins coûteuse, CalibAtt facilite l'accès à ces technologies pour des applications en temps réel ou sur du matériel moins puissant.
Généralité : Le cadre proposé est applicable à d'autres domaines des transformateurs (génération d'images, modèles de langage) où les motifs d'attention pourraient présenter des régularités similaires.
Avenir : L'article ouvre la voie à des recherches sur la compression des masques calibrés et l'exploration de corrélations entre les étapes de diffusion pour une optimisation encore plus poussée.

En résumé, CalibAtt représente une avancée majeure vers l'inférence efficace des modèles de vidéo générative, offrant un compromis optimal entre vitesse de calcul et qualité de sortie sans nécessiter de modification des poids du modèle.