Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un robot artista muy talentoso capaz de crear videos increíbles a partir de una simple descripción de texto (como "un perro corriendo en la playa"). A este robot lo llamamos un modelo de "Texto a Video".

Pero, los científicos se dieron cuenta de que cuando le pedían al robot que creara un video basado en una foto específica (como una foto de un perro estático) para que el perro se moviera, el resultado era aburrido: el perro apenas se movía, parecía una foto con un poco de parpadeo. ¡El video estaba "congelado"!

Este artículo explica por qué pasa esto y cómo lo arreglaron con una solución muy inteligente llamada ALG (Guía de Bajo Paso Adaptativa).

Aquí te lo explico como si fuera una historia:

1. El Problema: El Robot se Obsesiona con los Detalles

Imagina que le das al robot una foto de un gato muy nítida, con cada pelo y arruga perfectamente visible.

Lo que sucede: El robot, al intentar animar esa foto, se obsesiona tanto con copiar exactamente cada pelo y arruga desde el primer segundo, que se queda "atascado" en esos detalles.
La analogía: Es como si un actor de teatro tuviera que representar una escena de lucha, pero el director le gritara: "¡No te muevas! ¡Mantén la postura exacta de tu nariz y tus pestañas!". El actor se queda rígido porque está tan enfocado en no mover una sola partícula de su cara, que olvida que tiene que pelear.
El resultado: El video sale con una calidad de imagen perfecta (el gato se ve genial), pero no se mueve. Es un video estático y aburrido.

2. La Solución Simple (pero imperfecta): La "Gafas de Niebla"

Los científicos probaron algo simple: ¿Qué pasa si le damos al robot la foto, pero borrosa?

El experimento: Si le das al robot una foto borrosa (sin los pelos ni arrugas definidas), el robot no puede obsesionarse con los detalles. Como no puede verlos, se ve obligado a pensar en el movimiento general: "¿Cómo se mueve un gato?".
El resultado: ¡El video se mueve mucho mejor! El gato salta y corre.
El problema: Ahora el video se ve borroso y feo. Perdiste la calidad de la imagen original. Es como ver una película de acción, pero con las gafas empañadas.

3. La Gran Idea: ALG (El "Guía Adaptativo")

Aquí es donde entran los autores con su invento, ALG. Se dieron cuenta de que no necesitaban elegir entre "movimiento" o "calidad". Podían tener ambos si lo hacían en dos tiempos.

Imagina que ALG es como un director de cine muy sabio que le habla al robot en dos fases:

Fase 1 (El inicio del video): Le dice al robot: "Oye, no te preocupes por los pelos del gato ni por las arrugas. Mira la foto a través de unas gafas de niebla (borrosa). Solo piensa en la acción: ¡el gato va a saltar!".
- ¿Por qué? Porque al principio de crear un video, lo importante es decidir cómo se mueven las cosas. Si el robot se enfoca en los detalles pequeños al principio, se bloquea.
Fase 2 (El final del video): Una vez que el robot ya ha decidido el movimiento y el video empieza a tomar forma, el director le quita las gafas de niebla y le dice: "¡Perfecto! Ahora que ya sabes cómo saltar el gato, mira la foto original con todo detalle y pinta esos pelos y arrugas para que quede perfecto".

La magia:

Al principio, el robot tiene libertad para crear un movimiento dinámico porque ignora los detalles que lo bloquean.
Al final, el robot recupera la nitidez y la belleza de la foto original.

¿Qué logran con esto?

Gracias a esta técnica de "gafas de niebla temporales" (que técnicamente llaman filtrado de paso bajo adaptativo):

Los videos se mueven un 33% más: Los personajes y objetos hacen cosas mucho más naturales y dinámicas.
La calidad se mantiene: Al final, el video sigue siendo nítido y hermoso, igual que la foto original.
No necesitan reentrenar: Es como un "parche" o un truco que se aplica mientras el robot está trabajando, sin necesidad de volver a estudiar todo el robot desde cero.

En resumen

El problema era que los robots de video se ponían tan nerviosos copiando los detalles de una foto que olvidaban cómo hacer que las cosas se movieran. La solución fue decirles: "Primero, ignora los detalles y concéntrate en la acción; luego, cuando ya sepas moverte, vuelve a mirar los detalles para que quede perfecto".

¡Y así, de una foto estática, obtienen un video lleno de vida y movimiento!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Mejora de la Movilidad en Modelos de Imagen-a-Video (I2V)

1. El Problema: Supresión de la Dinámica de Movimiento

Aunque los modelos de texto-a-video (T2V) han demostrado capacidades impresionantes para generar videos dinámicos y de alta calidad, los modelos de imagen-a-video (I2V) derivados de ellos a menudo producen resultados excesivamente estáticos.

Fenómeno observado: Cuando se fine-tunea un modelo T2V para aceptar una imagen de referencia como condición inicial, el video generado tiende a adherirse demasiado a la apariencia estática de la imagen de entrada, suprimiendo el movimiento temporal.
Causa raíz identificada: Los autores identifican que esto se debe a la exposición prematura a detalles de alta frecuencia en la imagen de entrada. Durante las primeras etapas del proceso de denoising (eliminación de ruido), la imagen de referencia "bloquea" la trayectoria de generación en una solución de "atajo" (shortcut), fijando los detalles finos demasiado pronto y evitando que se desarrollen movimientos a gran escala o cambios de estructura gruesa.
Solución ingenua y sus limitaciones: Aplicar un filtro de paso bajo (baja frecuencia) a la imagen de entrada mejora el movimiento, pero a costa de una pérdida significativa de fidelidad y calidad de imagen en cada fotograma, ya que se eliminan permanentemente los detalles finos.

2. Metodología: Guía de Paso Bajo Adaptativa (ALG)

Para resolver el dilema entre movimiento dinámico y alta fidelidad de imagen, los autores proponen ALG (Adaptive Low-Pass Guidance), una técnica de inferencia sin entrenamiento (training-free).

Concepto Central: ALG modula adaptativamente el contenido de frecuencia de la imagen de condición durante el proceso de muestreo (denoising), basándose en el tiempo (timestep).
Mecanismo de Funcionamiento:
1. Etapa Temprana ( $t \approx 0$ ): Se aplica un filtro de paso bajo fuerte a la imagen de referencia. Esto elimina los detalles de alta frecuencia, permitiendo que el modelo explore trayectorias de generación más flexibles y desarrolle movimientos coarsos (gruesos) sin quedar atrapado en los detalles estáticos de la imagen original.
2. Etapa Tardía ( $t \approx 1$ ): Se reduce progresivamente la fuerza del filtro hasta eliminarlo por completo. Se reintroduce la imagen de referencia original (sin filtrar) para que el modelo pueda reconstruir los detalles finos y la alta fidelidad de la imagen.
Implementación Técnica:
- Se utiliza dentro del esquema de Guía sin Clasificador (CFG).
- La predicción de velocidad se formula como:
  $v_{ALG}(x_t, t) = v_\theta(x_t, x_{init}, t, \emptyset) + w \cdot (v_\theta(x_t, x^{(t)}_{init}, t, c) - v_\theta(x_t, x^{(t)}_{init}, t, \emptyset))$
  Donde $x^{(t)}_{init}$ es la imagen filtrada en el tiempo $t$ , y el término incondicional utiliza la imagen original $x_{init}$ para mantener la fidelidad.
- La fuerza del filtro $\kappa(t)$ se define típicamente como una función escalón que es alta al inicio y cero después de un punto de transición $t_{trans}$ .

3. Contribuciones Clave

Análisis del Fenómeno: Demostración empírica y visual (mediante mapas de características) de que la supresión del movimiento en I2V se debe a un "atajo" prematuro causado por las altas frecuencias de la imagen de entrada.
Propuesta ALG: Un método simple, sin entrenamiento, que mejora la dinámica temporal sin sacrificar la calidad de la imagen.
Validación Exhaustiva: Pruebas en múltiples modelos de última generación (Wan 2.1, Wan 2.2, LTX-Video) y conjuntos de datos (VBench, PVD, VidProM).

4. Resultados Experimentales

Los experimentos demuestran que ALG logra un equilibrio superior entre movimiento y calidad:

Mejora en Dinamismo: En la suite de pruebas VBench, ALG logra una mejora promedio del 33% en el grado de dinamismo (Dynamic Degree) a través de diferentes modelos.
Preservación de Calidad: A diferencia de la filtración constante, ALG mantiene o incluso mejora ligeramente las métricas de calidad de video (fidelidad de la imagen, consistencia del sujeto, calidad estética) y la alineación con el texto.
Comparativa:
- Wan 2.2: El grado de dinamismo aumentó de 31.7 (CFG) a 39.0 (ALG).
- Wan 2.1: Aumentó de 28.9 a 39.4.
- LTX-Video: Aumentó de 15.5 a 21.5.
Costo Computacional: El costo de inferencia es marginal (un aumento de tiempo de aproximadamente el 11% en el peor de los casos), ya que el filtrado solo se aplica en los primeros pasos del denoising.

5. Significado e Impacto

Este trabajo es significativo porque aborda una limitación fundamental en la generación de video condicional sin requerir un reentrenamiento costoso de modelos masivos.

Eficiencia: Ofrece una solución "plug-and-play" que puede aplicarse a cualquier modelo I2V basado en difusión o flujo de matching existente.
Calidad vs. Movimiento: Resuelve la compensación tradicional donde aumentar el movimiento solía degradar la fidelidad de la imagen. ALG permite obtener videos que son tanto dinámicos como visualmente fieles a la imagen de entrada.
Futuro de la Generación de Video: Establece una nueva línea de investigación sobre cómo la manipulación de frecuencias espaciales durante el proceso de denoising puede controlar la evolución temporal de los videos generados.

En conclusión, ALG es una técnica elegante que desbloquea el potencial de movimiento latente en los modelos I2V actuales, corrigiendo el sesgo hacia la estática causado por la sobre-condición de detalles finos, y permitiendo la generación de videos más vivos y cinemáticos.

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

1. El Problema: El Robot se Obsesiona con los Detalles

2. La Solución Simple (pero imperfecta): La "Gafas de Niebla"

3. La Gran Idea: ALG (El "Guía Adaptativo")

¿Qué logran con esto?

En resumen

Resumen Técnico: Mejora de la Movilidad en Modelos de Imagen-a-Video (I2V)

1. El Problema: Supresión de la Dinámica de Movimiento

2. Metodología: Guía de Paso Bajo Adaptativa (ALG)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation