FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Le papier présente FC-VFI, une méthode d'interpolation de frames vidéo qui utilise un modèle de diffusion pré-entraîné, une stratégie de modélisation temporelle et une correspondance sémantique pour générer des vidéos à haute fréquence d'images (jusqu'à 240 FPS) avec une fidélité visuelle et une cohérence temporelle supérieures.

Ganggui Ding, Hao Chen, Xiaogang Xu

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez une vidéo de 30 images par seconde (FPS), comme un film classique, et que vous voulez la transformer en un ralenti ultra-fluide, comme si vous regardiez une cascade de gouttes d'eau suspendues dans les airs. C'est ce qu'on appelle l'interpolation de vidéos : créer des images intermédiaires entre deux images existantes pour rendre le mouvement plus doux.

Le problème, c'est que les anciennes méthodes étaient comme des dessinateurs un peu pressés : soit elles inventaient des détails qui n'existaient pas (ce qui créait des artefacts bizarres), soit elles suivaient le mouvement de manière trop rigide, ce qui rendait la vidéo floue ou déformée.

Voici comment FC-VFI, la nouvelle méthode présentée dans cet article, résout ce problème avec une approche intelligente et élégante.

1. Le Problème : Le Dilemme du Dessinateur

Imaginez que vous devez dessiner le mouvement d'une voiture entre deux photos : une où elle est à gauche, et une où elle est à droite.

  • Les anciennes méthodes (basées sur le flux optique) : C'est comme essayer de relier les deux photos en suivant des points invisibles. Si la voiture passe devant un arbre, les points se perdent, et le dessin devient une tache floue.
  • Les méthodes génératives récentes (basées sur l'IA) : C'est comme donner un pinceau magique à un artiste. Il peut inventer des détails, mais parfois, il a trop d'imagination : la voiture peut changer de forme en cours de route, ou les roues peuvent trembler. C'est ce qu'on appelle un manque de "fidélité" (l'image ne ressemble plus exactement à la réalité).

2. La Solution FC-VFI : Le Guide de Voyage Temporel

Les auteurs proposent une méthode qui agit comme un guide de voyage très strict mais créatif. Voici les trois piliers de leur invention, expliqués simplement :

A. Le "Miroir Temporel" (Temporal Fidelity Modulation Reference)

Au lieu de demander à l'IA de deviner l'image du milieu en regardant seulement les extrémités, FC-VFI lui dit : "Regarde l'image de départ ET l'image d'arrivée en même temps, tout au long du processus."

  • L'analogie : Imaginez que vous devez peindre un paysage entre deux photos. Au lieu de fermer les yeux et de deviner, vous gardez les deux photos ouvertes devant vous. Si vous commencez à peindre un arbre qui ressemble trop à celui de la photo de droite alors que vous êtes encore au début, le système vous corrige immédiatement. Cela garantit que la voiture reste une voiture, et qu'elle ne se transforme pas en un camion bizarre au milieu de la scène.

B. Les "Lignes de Chemin" (Matching Lines)

Pour que le mouvement soit fluide, il faut savoir où sont les contours des objets. Les anciennes méthodes utilisaient des points dispersés (comme des étoiles dans le ciel) ou des flots de données complexes (comme une rivière boueuse) pour suivre le mouvement.
FC-VFI utilise des lignes de correspondance sémantique.

  • L'analogie : Au lieu de suivre des milliers de points, on trace des lignes directes sur les contours importants (les bords d'un bâtiment, le contour d'une voiture). C'est comme si on dessinait le squelette de l'objet avant de le remplir de chair. Cela permet à l'IA de comprendre la structure de l'objet même si la caméra bouge vite ou si l'objet passe derrière un obstacle.

C. Le "Contrôle de la Vitesse" (Temporal Difference Loss)

Parfois, l'IA a peur de bouger et crée des images presque identiques, ce qui donne un effet de "glitch" ou de saccade.
FC-VFI ajoute une règle stricte : "L'image suivante doit être clairement différente de la précédente, exactement comme dans la réalité."

  • L'analogie : C'est comme un chef d'orchestre qui dit à ses musiciens : "Ne restez pas sur la même note trop longtemps ! Changez de note à chaque mesure." Cela force l'IA à créer un mouvement naturel et fluide, évitant les effets de "gel" entre les images.

3. Les Résultats Magiques

Grâce à ces astuces, FC-VFI fait des merveilles :

  • Vitesse : Elle peut transformer une vidéo de 30 images par seconde en une vidéo de 120 ou même 240 images par seconde. C'est comme passer d'une promenade tranquille à une course de Formule 1 en ultra-lent.
  • Qualité : Elle fonctionne même sur des écrans très grands (2560 x 1440 pixels). Les détails comme les plaques d'immatriculation, les textes sur les panneaux ou les textures des bâtiments restent nets, sans devenir flous ou déformés.
  • Efficacité : Contrairement aux autres méthodes qui doivent faire plusieurs passes de dessin (comme relire un livre trois fois pour bien comprendre), FC-VFI le fait en une seule passe rapide (10 étapes seulement).

En Résumé

FC-VFI est comme un monteur vidéo génial qui ne se contente pas de deviner le futur. Il utilise les images de départ et d'arrivée comme une boussole infaillible, trace des lignes directrices pour ne pas perdre le fil, et s'assure que le mouvement reste naturel. Le résultat ? Des ralentis vidéo d'une fluidité parfaite, même sur des scènes complexes, sans que les objets ne se déforment ou ne disparaissent dans un brouillard numérique.

C'est une avancée majeure pour créer des vidéos de haute qualité, que ce soit pour le cinéma, les jeux vidéo ou simplement pour rendre nos souvenirs de vacances encore plus fluides et réalistes.