Flowception: Temporally Expansive Flow Matching for Video Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de dessiner une bande dessinée animée, mais au lieu de dessiner chaque case une par une dans l'ordre strict (de la case 1 à la case 100), vous avez une méthode magique qui vous permet de dessiner l'histoire de manière plus intelligente et flexible. C'est exactement ce que propose Flowception, une nouvelle invention pour créer des vidéos par intelligence artificielle.

Voici une explication simple de comment ça marche, en utilisant des analogies du quotidien.

1. Le problème des anciennes méthodes

Pour créer une vidéo, les anciennes IA utilisaient deux approches principales, qui avaient toutes les deux des défauts :

L'approche "Tout d'un coup" (Full-Sequence) : Imaginez que vous devez peindre un immense tableau mural. Vous devez peindre toutes les cases de la vidéo en même temps, du début à la fin.
- Le problème : C'est très lent et demande une énergie énorme (comme essayer de soulever un éléphant d'un coup). De plus, si vous voulez une vidéo très longue, c'est impossible à gérer car la mémoire de l'ordinateur explose.
L'approche "Autoregressive" (Case par case) : Imaginez un écrivain qui écrit un livre page par page. Il écrit la page 1, puis la page 2 en se basant sur la page 1, etc.
- Le problème : Si l'écrivain fait une petite erreur sur la page 1 (un mot mal orthographié), il va essayer de corriger sur la page 2, mais l'erreur va s'accumuler. À la page 50, l'histoire devient bizarre et déformée. C'est ce qu'on appelle la "dérive" (drift). De plus, il ne peut pas voir la fin du livre pour corriger le début.

2. La solution Flowception : Le "Chef d'Orchestre Flexible"

Flowception est comme un chef d'orchestre génial qui ne suit pas un ordre rigide. Il mélange deux actions magiques pendant la création de la vidéo :

Le "Dénouage" (Denoising) : Il prend des images floues (comme du bruit de neige) et les nettoie progressivement pour les rendre claires.
L'"Insertion" (Insertion) : C'est la grande nouveauté. Au lieu de dessiner la case 2 après la case 1, le chef d'orchestre peut décider d'insérer une nouvelle case entre la case 1 et la case 10, ou entre la case 50 et la case 51, exactement là où l'histoire en a besoin.

L'analogie du puzzle :
Imaginez que vous assemblez un puzzle géant.

Les anciennes méthodes vous disent : "Mets la pièce 1, puis la 2, puis la 3..." Si tu mets la pièce 2 de travers, tout le reste sera faux.
Flowception, lui, dit : "Mets la pièce 1 et la pièce 100. Maintenant, regarde le vide entre elles. Ah, il manque une pièce ? Insérons-la ! Et hop, on la nettoie pour qu'elle s'adapte parfaitement à ses voisines."

3. Pourquoi c'est génial ?

Pas d'erreurs qui s'accumulent : Comme le chef d'orchestre peut revenir en arrière et insérer des pièces au milieu de l'histoire pour corriger le tir, la vidéo reste cohérente du début à la fin. Il n'y a pas de "dérive" bizarre.
Économie d'énergie : Comme il ne dessine pas tout en même temps, mais seulement les parties actives de l'histoire au moment où il en a besoin, il consomme beaucoup moins d'énergie (environ 3 fois moins pour l'entraînement). C'est comme cuisiner : au lieu de préparer un banquet pour 100 personnes d'un coup, on prépare les plats au fur et à mesure qu'ils sont nécessaires.
Longueur variable : Vous ne savez pas à l'avance combien de temps durera la vidéo ? Flowception s'adapte. Il peut décider d'insérer 50 images ou 200 images selon ce qui est nécessaire pour raconter l'histoire de manière fluide.

4. Les super-pouvoirs de Flowception

Grâce à cette méthode flexible, une seule IA peut faire plein de choses différentes sans avoir besoin d'être réentraînée :

Image vers Vidéo : Vous donnez une photo, et l'IA imagine tout le mouvement qui suit.
Interpolation : Vous donnez le début et la fin d'une vidéo, et l'IA invente tout ce qui se passe entre les deux (comme remplir les trous d'un puzzle).
Scènes complètes : Vous pouvez donner plusieurs images espacées, et l'IA va "tisser" le reste de l'histoire entre elles.

En résumé

Flowception, c'est passer d'un dessin animé fait ligne par ligne (où une erreur gâche tout) à une sculpture vivante où l'artiste peut ajouter de la matière n'importe où, à tout moment, pour créer une histoire fluide, longue et sans erreur. C'est plus rapide, plus intelligent, et ça permet de créer des vidéos plus longues et plus belles avec moins d'effort informatique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération vidéo actuelle repose principalement sur deux paradigmes, chacun présentant des limitations majeures :

Génération de séquence complète (Full-sequence) : Tous les cadres (frames) sont débruités simultanément avec une attention bidirectionnelle. Bien que cela offre une haute qualité, cela impose une complexité quadratique en fonction du nombre de cadres ( $O(N^2)$ ), rendant la génération de longues vidéos coûteuse en calcul. De plus, elle ne permet pas le streaming en temps réel car tous les cadres doivent être générés avant d'être affichés.
Génération autoregressive (AR) : Les cadres sont générés séquentiellement (de gauche à droite). Cela permet le streaming et l'utilisation de caches KV (Key-Value) pour l'inférence. Cependant, cette méthode souffre d'un biais d'exposition (exposure bias) : lors de l'inférence, le modèle se base sur ses propres cadres précédents (parfois imparfaits) plutôt que sur les véritables (ground truth), ce qui entraîne une accumulation d'erreurs et une dégradation rapide de la qualité sur les longues séquences. De plus, l'attention causale stricte limite la capacité du modèle à corriger les erreurs globales.

L'objectif est de concevoir un cadre de génération vidéo non-autoregressif, capable de gérer des longueurs variables, d'éviter l'accumulation d'erreurs, tout en réduisant les coûts de calcul par rapport aux méthodes de séquence complète.

2. Méthodologie : Flowception

Flowception propose une approche hybride qui intercale deux processus durant l'échantillonnage : le débruitage continu des cadres existants et l'insertion stochastique de nouveaux cadres.

A. Principe Fondamental

Le modèle opère dans l'espace des séquences de longueur variable. Au lieu de débruitant une séquence fixe, Flowception apprend un chemin de probabilité où :

Débruitage continu (Flow Matching) : Les cadres existants sont débruités via un champ de vitesse appris.
Insertion discrète (Edit Flow) : De nouveaux cadres sont insérés entre les cadres existants avec une certaine probabilité prédite par le modèle. Ces nouveaux cadres sont initialisés comme du bruit (Gaussien) et sont ensuite débruités dans le contexte des autres cadres.

B. Processus de Génération

Initialisation : On commence avec un nombre fixe de cadres de départ (bruités).
Temps Global et Local : Le modèle utilise un temps global $t_g$ (de 0 à 1) qui contrôle l'avancement de la séquence, et des temps locaux $t_i$ pour chaque cadre. Un cadre inséré à un moment $t_g$ a un temps local initial de 0.
Étape de Transport : À chaque itération, le modèle prédit :
- Un champ de vitesse pour débruitant les cadres actifs.
- Un taux d'insertion ( $\lambda_i$ ) pour chaque position, déterminant la probabilité d'insérer un nouveau cadre à droite de la position $i$ .
Arrêt : La génération s'arrête lorsque tous les cadres ont atteint un temps local de 1 (débruités) et que le temps global atteint 1 (plus d'insertions possibles).

C. Entraînement

L'entraînement aligne la distribution des cadres visibles et de leurs temps avec celle de l'échantillonnage.

Planification étendue (Extended Time Scheduler) : Pour gérer les cadres non encore insérés, le temps est étendu à l'intervalle $[0, 2]$ . Les cadres sont dans un état "supprimé" ( $\tau < 0$ ), "en flux" ( $0 \le \tau < 1$ ) ou "terminal" ( $\tau \ge 1$ ).
Fonctions de Perte :
- Perte de Vitesse : Loss standard de Flow Matching pour le débruitage des cadres actifs.
- Perte d'Insertion : Une perte de vraisemblance négative (NLL) de Poisson pour apprendre le nombre de cadres manquants à insérer à chaque position.

D. Flexibilité des Tâches

Grâce à la nature non-autoregressive et à la gestion des cadres contextuels (actifs vs passifs), Flowception gère nativement plusieurs tâches sans changement d'architecture :

Image-to-Video (I2V)
Text-to-Video (T2V)
Interpolation vidéo
Complétion de scène

3. Contributions Clés

Cadre Unifié : Introduction de Flowception, couplant l'insertion de cadres apprise et le Flow Matching continu dans un seul modèle.
Génération Variable et Non-Autoregressive : Capacité à générer des vidéos de longueur variable et à insérer des cadres dans n'importe quel ordre, évitant ainsi le biais d'exposition des méthodes AR.
Efficacité Computationnelle :
- Réduction de 3x des FLOPs (opérations flottantes) lors de l'entraînement par rapport aux modèles de séquence complète.
- Réduction de 1.5x des FLOPs lors de l'échantillonnage (grâce à l'insertion progressive qui maintient une séquence active plus courte en moyenne).
Performance Supérieure : Résultats quantitatifs et qualitatifs supérieurs aux baselines AR et Full-sequence sur plusieurs jeux de données.

4. Résultats Expérimentaux

Les expériences ont été menées sur les datasets Tai-Chi-HD, RealEstate10K et Kinetics-600.

Qualité de Génération (FVD et VBench) : Flowception surpasse systématiquement les modèles autoregressifs et de séquence complète.
- Sur RealEstate10K, le FVD (Fréchet Video Distance) passe de 47.48 (AR) et 26.17 (Full-sequence) à 21.80 avec Flowception.
- Les métriques VBench (qualité d'image, cohérence du sujet, fluidité du mouvement) montrent des améliorations constantes.
Stabilité Temporelle : Contrairement aux modèles AR qui souffrent de "dérive" (drift) et d'artefacts cumulatifs sur les longues séquences, Flowception maintient une cohérence temporelle élevée car les cadres distants peuvent interagir tôt dans le processus de débruitage.
Efficacité : Flowception est environ 30% plus rapide en temps réel que les modèles de séquence complète pour un même nombre de pas d'échantillonnage.
Interpolation : Le modèle excelle dans l'interpolation vidéo, adaptant dynamiquement le nombre de cadres insérés pour assurer des transitions fluides sans avoir besoin de spécifier la longueur de l'interpolation à l'avance.

5. Signification et Impact

Flowception représente une avancée significative pour la génération vidéo à long terme. En combinant la flexibilité de l'insertion discrète avec la stabilité du Flow Matching continu, il résout le compromis traditionnel entre la qualité (souvent associée aux modèles de séquence complète) et l'efficacité/longueur (souvent associée aux modèles AR).

Réduction de l'empreinte énergétique : La réduction des FLOPs permet de générer des vidéos plus longues avec moins de ressources.
Applications Pratiques : La capacité à gérer l'interpolation, la complétion de scène et la génération variable rend ce modèle particulièrement adapté aux workflows de création de contenu, à l'animation et à la modélisation du monde.
Architecture Évolutive : La méthode est compatible avec des mécanismes d'attention locale, ouvrant la voie à la génération de vidéos extrêmement longues (minutes) avec une complexité quasi-linéaire ou quadratique réduite.

En résumé, Flowception offre une alternative robuste et efficace aux paradigmes dominants, permettant une génération vidéo de haute qualité, flexible et économiquement viable.