FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

El artículo presenta FC-VFI, un método de interpolación de frames de video que utiliza modelos de difusión preentrenados con estrategias de modelado temporal y pérdidas específicas para generar videos de alta fidelidad y consistencia a 120 y 240 FPS, preservando tanto los detalles visuales como la coherencia del movimiento.

Ganggui Ding, Hao Chen, Xiaogang Xu

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes dos fotos de un video: una al principio y otra al final. Por ejemplo, una foto de un coche empezando a moverse y otra donde ya está lejos. Tu cerebro puede imaginar el movimiento, pero si quieres ver el video en cámara lenta (como en una película de acción), necesitas muchas fotos intermedias que no existen.

Antes, las computadoras intentaban "adivinar" esas fotos intermedias, pero a menudo se equivocaban: los coches se deformaban, los objetos parpadeaban o el movimiento se veía raro.

Aquí es donde entra FC-VFI, el nuevo "mago" de la informática presentado en este artículo. Vamos a explicarlo con analogías sencillas:

1. El Problema: El "Chef" que olvida la receta

Imagina que tienes un chef muy talentoso (una Inteligencia Artificial llamada Modelo de Difusión) que puede inventar platos deliciosos desde cero.

  • El problema: Si le pides que invente un plato intermedio entre un "sopa" (foto inicial) y un "postre" (foto final), el chef a veces se deja llevar por su imaginación y crea algo que no tiene nada que ver con la sopa ni con el postre. El resultado es un desastre visual (el coche se convierte en un gato, por ejemplo).
  • Lo anterior: Otros métodos intentaban usar mapas de movimiento (como un GPS) para guiar al chef, pero esos mapas a menudo estaban rotos o eran muy vagos, así que el chef seguía confundido.

2. La Solución: FC-VFI (El Chef con "Gafas de Memoria")

Los autores crearon un nuevo sistema llamado FC-VFI que le da al chef unas "gafas mágicas" para que nunca olvide de dónde viene ni a dónde va.

A. La "Modulación de Fidelidad" (No soltar la mano)

En lugar de dejar que el chef imagine todo solo, FC-VFI le dice: "Oye, mientras cocinas el plato de en medio, sigue agarrando la mano de la foto inicial y la final".

  • La analogía: Imagina que estás pintando un cuadro entre dos fotos. En lugar de mirar solo el lienzo en blanco, tienes dos fotos pegadas en tu frente que te recuerdan constantemente cómo era el coche al principio y al final. Así, el coche nunca se deforma; mantiene su forma perfecta. Esto se llama Fidelidad Temporal.

B. Las "Líneas de Enlace" (El esqueleto del movimiento)

A veces, el movimiento es muy rápido o hay cosas que se tapan (como un coche pasando detrás de un árbol). Los mapas de movimiento antiguos fallaban aquí.

  • La analogía: FC-VFI no mira cada píxel (cada punto de color), sino que busca las líneas clave que conectan las formas (como el borde de un edificio o la forma de una cara). Es como si el chef dibujara primero el "esqueleto" del movimiento con líneas sólidas antes de pintar los detalles. Esto asegura que, aunque el coche se mueva rápido, su estructura no se rompa.

C. La "Pérdida de Diferencia" (El metrónomo del ritmo)

A veces, la computadora hace fotos intermedias que son casi idénticas entre sí, haciendo que el video parezca congelado o con tics.

  • La analogía: FC-VFI tiene un metrónomo interno que le grita: "¡Muévete! ¡No te quedes quieto!". Obliga a que cada fotograma intermedio tenga un movimiento claro y suave respecto al anterior, evitando que el video se vea entrecortado.

3. ¿Por qué es tan especial?

  • Velocidad y Calidad: Antes, para hacer estos videos lentos y de alta calidad, la computadora tenía que trabajar el doble (hacer el video de ida y de vuelta y luego unirlos). FC-VFI es como un corredor olímpico: lo hace en un solo paso y muy rápido.
  • Resolución 4K: Funciona increíblemente bien incluso en pantallas gigantes (2560 x 1440 píxeles), donde antes las imágenes se veían borrosas o pixeladas.
  • Detalles finos: Si hay un letrero en un edificio o una matrícula de un coche, FC-VFI logra que se lean perfectamente en cámara lenta, mientras que otros métodos los convierten en manchas borrosas.

En resumen

FC-VFI es como darle a una computadora una "memoria perfecta" y un "esqueleto de movimiento" para que pueda inventar cientos de fotos nuevas entre dos fotos existentes, sin deformar nada y manteniendo la calidad de una película de cine.

Gracias a esto, podemos crear videos en cámara lenta ultra rápidos (de 30 a 240 fotogramas por segundo) que se ven tan reales y nítidos que es difícil creer que fueron generados por una máquina. ¡Es como tener un control remoto del tiempo que funciona a la perfección!