Streaming Autoregressive Video Generation via Diagonal Distillation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de dessiner un film d'animation, image par image, en temps réel. C'est le défi que se sont lancés les chercheurs de ce papier, intitulé "Diagonal Distillation".

Pour comprendre leur solution, il faut d'abord imaginer le problème actuel comme une course de relais très compliquée.

1. Le Problème : La Course de Relais Épuisante

Actuellement, les meilleures IA pour créer des vidéos fonctionnent comme un artiste perfectionniste qui veut tout faire d'un coup.

Les modèles classiques (comme les "modèles de diffusion") sont comme un peintre qui regarde tout le tableau en même temps. Pour faire une vidéo, ils doivent imaginer toutes les images du début à la fin simultanément. C'est magnifique, mais c'est très lent. C'est comme si vous deviez peindre tout un film avant de pouvoir montrer la première seconde. Impossible pour du temps réel (comme dans un jeu vidéo ou pour un robot).
Les modèles "Autoregressifs" (qui génèrent image par image) sont plus rapides, comme un dessinateur qui fait une case, puis la suivante. Mais pour que la qualité soit bonne, ils doivent faire beaucoup de "passes" de nettoyage sur chaque image. C'est comme si, pour chaque nouvelle case de bande dessinée, l'artiste devait la repasser 50 fois au lisseur pour qu'elle soit parfaite. Résultat : c'est beau, mais ça prend trop de temps.

De plus, quand on essaie d'accélérer ce processus (en faisant moins de passes), la vidéo devient bizarre : les objets bougent mal, les couleurs deviennent trop vives (saturées) et l'histoire perd son sens au fur et à mesure que la vidéo avance. C'est comme si le dessinateur commençait à fatiguer et à faire des erreurs de plus en plus grosses à chaque nouvelle page.

2. La Solution : La Stratégie "Diagonale"

Les auteurs proposent une idée géniale qu'ils appellent "Distillation Diagonale".

Imaginez que vous construisez un pont, brique par brique, pour traverser une rivière.

L'approche habituelle : Vous mettez 10 heures à poser chaque brique, peu importe où vous êtes sur le pont. C'est solide, mais ça prend une éternité.
L'approche Diagonale : Vous comprenez que les premières briques (le début du pont) sont les plus importantes car elles doivent supporter tout le poids. Donc, vous y passez beaucoup de temps et d'énergie pour qu'elles soient parfaites.
- Une fois que la base est solide, vous savez que les briques suivantes peuvent être posées plus vite.
- Pourquoi ? Parce que les premières briques donnent déjà la forme et la direction. Les suivantes n'ont pas besoin de tout réinventer, elles peuvent juste "suivre le courant".

Dans leur méthode, l'IA passe beaucoup d'étapes de "nettoyage" sur les premières images du vidéo (le début du pont), mais de moins en moins d'étapes sur les images suivantes. C'est comme une diagonale : on commence fort, on finit léger.

3. Les Deux Astuces Magiques

Pour que cette accélération ne gâche pas la qualité, ils utilisent deux trucs de magicien :

A. Le "Forçage Diagonal" (Ne pas se fier à la perfection)

D'habitude, quand on entraîne une IA, on lui donne la "vraie" image précédente pour qu'elle dessine la suivante. Mais dans la réalité, l'IA n'a jamais l'image parfaite, elle a seulement sa propre version précédente (qui peut être imparfaite).

L'analogie : C'est comme si vous appreniez à un élève à conduire en lui donnant une voiture neuve et parfaite à chaque fois, mais qu'en examen, il doit conduire une voiture avec un pneu crevé. Il va échouer.
La solution : Les chercheurs entraînent l'IA avec des images "bruitées" (imparfaites) qui ressemblent à ce qu'elle produira réellement. Ils créent une trajectoire en diagonale où l'IA apprend à corriger ses propres erreurs au fur et à mesure, comme un musicien qui s'entraîne avec des fausses notes pour apprendre à jouer juste en direct.

B. La "Carte du Mouvement" (Flow Distribution Matching)

Quand on va trop vite, les objets dans la vidéo ont tendance à devenir flous ou à ne pas bouger du tout (comme un robot en gelée).

L'analogie : Imaginez que vous dessinez une voiture qui roule. Si vous allez trop vite, vous oubliez de dessiner les roues qui tournent.
La solution : Ils ajoutent une "boussole du mouvement". L'IA ne regarde pas seulement si l'image est belle, elle vérifie aussi si le mouvement (la vitesse, la direction) est cohérent avec la réalité. C'est comme avoir un coach sportif qui vous dit : "Non, tes jambes ne bougent pas assez vite pour une course !". Cela empêche la vidéo de devenir statique ou bizarre, même avec peu d'étapes.

4. Le Résultat : Un Super-Héros de la Vidéo

Grâce à cette méthode, l'IA peut générer 5 secondes de vidéo en seulement 2,6 secondes.

C'est 277 fois plus rapide que les modèles précédents non optimisés.
La qualité reste excellente : les mouvements sont fluides, les visages ne se déforment pas, et l'histoire reste cohérente même sur de longues séquences.

En résumé :
Au lieu de traiter chaque image de la vidéo avec la même lourdeur, cette méthode utilise la sagesse des premières images pour aller plus vite sur les suivantes. C'est comme apprendre à nager : on commence par bien maîtriser les premiers mouvements (les premières images), et ensuite, on glisse sur l'eau avec beaucoup moins d'effort pour le reste du trajet, tout en restant parfaitement à flot.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de conférence ICLR 2026 intitulé "Streaming Autoregressive Video Generation via Diagonal Distillation" (Génération vidéo autogressive en flux continu par distillation diagonale).

1. Problématique et Contexte

La génération vidéo par des modèles de diffusion pré-entraînés a considérablement amélioré la qualité visuelle, mais leur application en temps réel (flux continu) reste limitée.

Limites des modèles Diffusion standards : Les architectures basées sur des Transformers de diffusion (comme DiT) utilisent une attention bidirectionnelle pour débruiter toutes les trames simultanément. Cela nécessite de générer la vidéo entière d'un coup, ce qui est incompatible avec les contraintes temps réel où les futures trames sont inconnues (ex: simulation de jeux, apprentissage par renforcement pour les robots).
Limites des modèles Autogressifs (AR) : Bien que les modèles AR génèrent trame par trame (ou par blocs/chunks), ils souffrent souvent d'une qualité visuelle inférieure. L'intégration de processus de diffusion dans les modèles AR (modèles hybrides) améliore la qualité mais impose plusieurs étapes de débruitage par bloc, ce qui empêche un déploiement temps réel.
Échec des méthodes de distillation existantes : Les techniques de distillation actuelles, adaptées de la génération d'images, négligent les dépendances temporelles. Elles entraînent une accumulation d'erreurs sur les longues séquences, une perte de cohérence du mouvement et un compromis latence-qualité défavorable. De plus, la prédiction implicite du niveau de bruit suivant dans les modèles AR crée un biais d'exposition (exposure bias), dégradant la qualité visuelle au fil du temps (sursaturation, flou).

2. Méthodologie : Diagonal Distillation (DiagDistill)

Les auteurs proposent un cadre de distillation nommé Diagonal Distillation, qui exploite orthogonalement l'information temporelle à travers les blocs vidéo et les étapes de débruitage. L'approche repose sur trois piliers principaux :

A. Stratégie de Débruitage Diagonal (Diagonal Denoising)

Contrairement aux méthodes qui appliquent un nombre fixe d'étapes de débruitage à tous les blocs, cette stratégie est asymétrique :

Principe : Plus d'étapes de débruitage sont allouées aux premiers blocs (qui établissent la structure globale et l'apparence), et le nombre d'étapes diminue progressivement pour les blocs ultérieurs.
Justification : Les premiers blocs, une fois traités avec soin, fournissent des priors structurels riches. Les blocs suivants peuvent hériter de ces informations et nécessiter moins d'étapes de débruitage pour maintenir la cohérence, réduisant ainsi la charge computationnelle totale.
Configuration : Par exemple, pour une vidéo de 5 secondes (7 blocs), les étapes peuvent être réparties comme suit : [5, 4, 3, 2, 2, 2, 2].

B. Forçage Diagonal (Diagonal Forcing)

Pour éviter l'accumulation d'erreurs et le biais d'exposition lors de la génération séquentielle :

Mécanisme : Au lieu d'utiliser des trames "propres" (débruitées) comme condition pour le bloc suivant, le modèle est conditionné par des trames bruitées issues de la trajectoire de débruitage du bloc précédent.
Implémentation : Lors de l'entraînement, une injection de bruit contrôlée simule la trajectoire diagonale. Le bloc $k$ est conditionné par $\tilde{X}_{k-1}$ , qui est une version bruitée de la sortie propre $X_{k-1}$ .
Avantage : Cela aligne les conditions d'entraînement avec les conditions d'inférence réelles (où le bloc suivant dépend d'un état partiellement débruité), réduisant ainsi la dérive sémantique et l'accumulation d'erreurs sur de longues séquences.

C. Correspondance de Distribution de Flux (Flow Distribution Matching)

Pour contrer l'atténuation du mouvement (motion attenuation) observée lorsque le nombre d'étapes de débruitage est réduit :

Objectif : Aligner explicitement la distribution du flux optique (mouvement) prédite par le modèle étudiant avec celle du modèle enseignant (full-step).
Méthode : Introduction d'une fonction de perte de régression de flux ( $L_{flow}^{reg}$ ) et d'une minimisation de la divergence KL sur les distributions de flux temporel.
Architecture : Un module léger d'extraction de caractéristiques de mouvement (basé sur les différences latentes et des convolutions) est intégré directement dans le modèle, évitant le besoin d'estimateurs de flux optique externes pré-entraînés.

3. Contributions Clés

Diagonal Distillation : Une méthode de génération vidéo autogressive efficace qui alloue dynamiquement les étapes de débruitage (plus au début, moins à la fin) pour équilibrer qualité et efficacité.
Diagonal Forcing : Un paradigme d'entraînement unifié qui propage les trajectoires de débruitage bruitées à travers les blocs temporels, atténuant l'accumulation d'erreurs à long terme.
Flow Distribution Matching : Une technique qui intègre la modélisation temporelle explicite dans la fonction de perte de distillation, préservant l'amplitude et la cohérence du mouvement même avec très peu d'étapes.
Performance Record : La méthode atteint des performances temps réel inédites tout en maintenant une haute fidélité visuelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur un GPU NVIDIA H100 en utilisant le modèle de base Wan2.1-T2V-1.3B.

Vitesse et Latence :
- Génération d'une vidéo de 5 secondes en 2,61 secondes.
- Débit (Throughput) : 31 FPS (images par seconde).
- Accélération : 277,3x par rapport au modèle non distillé (Wan2.1).
- Latence de la première trame : 0,37 seconde.
Qualité :
- Le modèle atteint des scores VBench comparables, voire supérieurs, aux méthodes de l'état de l'art (Self-Forcing, Causvid) en termes de qualité temporelle, de qualité d'image et d'alignement texte-vidéo.
- Comparé à Self-Forcing (l'approche précédente la plus rapide), DiagDistill offre une accélération de 1,53x avec une meilleure cohérence temporelle.
Génération Longue :
- L'évaluation sur des vidéos de 45 secondes montre que la méthode maintient une qualité stable, tandis que les méthodes de base souffrent de distorsions de saturation et de dégradation de la qualité au fil du temps.
- Une étude utilisateur (93 participants) confirme une préférence significative (>50% dans tous les cas) pour DiagDistill par rapport aux méthodes concurrentes, notamment pour la fidélité au texte et la cohérence à long terme.

5. Signification et Impact

Ce travail résout un problème fondamental dans la génération vidéo : le compromis entre la haute qualité (nécessitant de nombreuses étapes de diffusion) et la latence temps réel (nécessitant peu d'étapes).

Innovation Conceptuelle : En reconnaissant que la structure temporelle d'une vidéo permet de réduire les étapes de débruitage progressivement, l'article redéfinit la façon dont la distillation doit être appliquée aux séquences vidéo.
Applications Potentielles : Cette technologie ouvre la voie à des applications interactives en temps réel, telles que la simulation de jeux vidéo, l'entraînement de robots par imitation, et les assistants créatifs interactifs, là où les modèles de diffusion traditionnels échouent en raison de leur latence.
Éthique : Les auteurs reconnaissent les risques de double usage (deepfakes) et s'engagent à intégrer des filigranes numériques et des guides d'utilisation lors de la publication open-source du code.

En résumé, Diagonal Distillation établit un nouvel état de l'art pour la génération vidéo en flux continu, démontrant qu'il est possible de générer des vidéos de haute qualité à des vitesses de lecture réelles grâce à une exploitation intelligente des dépendances temporelles et de la distillation de mouvement.