MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres que una Inteligencia Artificial cree un video de una persona corriendo, saltando o bailando. Hasta ahora, las IAs eran como pintores muy talentosos pero un poco torpes: podían pintar un rostro o una camisa con colores increíbles (muy realistas), pero cuando intentaban dibujar cómo se mueven los brazos y las piernas, a menudo las personas parecían tener tres piernas, se torcían de formas imposibles o se atravesaban a través de las paredes.

El paper que nos ocupa, llamado MoSA, es como un nuevo equipo de producción de cine que ha decidido cambiar las reglas del juego para arreglar este problema.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: "Pintar sin el esqueleto"

Antes, las IAs intentaban pintar todo el video de golpe: la ropa, el fondo y el movimiento al mismo tiempo. Era como intentar construir una casa empezando por la pintura de las paredes sin haber puesto primero los ladrillos ni las vigas. El resultado eran casas (videos) que se veían bonitas por fuera, pero que se caían a pedazos o tenían puertas en el techo.

2. La Solución de MoSA: "Primero el esqueleto, luego la piel"

MoSA tiene una idea brillante: separar la estructura del movimiento de la apariencia visual. Imagina que para crear un video, MoSA tiene dos artistas trabajando en equipo, pero por turnos:

El Arquitecto (Generación de Estructura):
Primero, MoSA no piensa en la ropa ni en el color de la piel. Piensa solo en los huesos y las articulaciones. Usa un "Arquitecto 3D" (un modelo especial) que lee tu descripción (por ejemplo: "una chica subiendo escaleras corriendo") y dibuja primero un esqueleto 3D que se mueve.
- ¿Por qué 3D? Porque en 3D, el arquitecto sabe que si una pierna pasa detrás de otra, no desaparece, solo se oculta. Esto evita que las piernas se crucen de forma imposible. Es como tener un plano de ingeniería antes de construir.
El Pintor (Generación de Apariencia):
Una vez que el arquitecto ha terminado de dibujar el esqueleto en movimiento, le pasa el plano al Pintor. El Pintor ahora tiene una guía perfecta: "Aquí va el brazo, aquí la pierna". Su trabajo es rellenar ese esqueleto con piel, ropa, pelo y el fondo, asegurándose de que todo se vea realista y hermoso.
- La ventaja: Como el Pintor ya sabe exactamente dónde debe ir cada cosa, no comete errores de anatomía.

3. Los Superpoderes Adicionales (Los "Trucos de Magia")

Para que esto funcione perfectamente, MoSA tiene tres trucos extra:

El Controlador de "Zonas Activas" (Human-Aware Dynamic Control):
A veces, el esqueleto es solo una línea fina y el Pintor necesita saber exactamente qué parte del cuerpo está moviéndose más. MoSA le da al Pintor unas "gafas mágicas" que le dicen: "¡Oye, aquí el brazo se mueve rápido, ponle más detalle!" y "Aquí el fondo está quieto, no te distraigas". Esto hace que el movimiento se sienta fluido y natural.
El Entrenador de "Memoria Muscular" (Pérdida de Seguimiento Denso):
Imagina que estás grabando un video y la cámara se mueve. MoSA le enseña a la IA a seguir los puntos del cuerpo como si fueran etiquetas adhesivas en una persona que corre. Así, si una persona gira, la IA recuerda que su brazo izquierdo sigue siendo el izquierdo y no se convierte en la derecha de la nada. Esto evita que el video se vea "tembloroso" o confuso.
El Guardavía de "No atravesar paredes" (Restricción de Contacto):
¿Alguna vez has visto videos donde una persona camina y sus pies se hunden en el suelo o atraviesan una silla? MoSA tiene un guardavía que vigila el contacto entre la persona y el mundo. Si la IA intenta hacer que una pierna atraviese una mesa, el guardavía le dice: "¡Alto! Eso es físicamente imposible". Esto hace que las interacciones (como saltar sobre una pelota o caminar sobre un tronco) se vean reales.

4. El Nuevo "Gimnasio" de Datos (MoVid)

Para entrenar a estos artistas, MoSA necesita practicar mucho. Los videos antiguos que tenían las IAs eran como un gimnasio que solo tenía máquinas para hacer ejercicios de cara o de brazos. MoSA ha creado su propio gimnasio gigante llamado MoVid, con 30,000 videos de personas haciendo cosas complejas: corriendo, saltando, interactuando con objetos y en entornos variados. Es como pasar de entrenar solo en una sala pequeña a entrenar en un estadio olímpico completo.

En Resumen

MoSA es como un director de cine que decide: "Primero, asegurémonos de que los actores (los esqueletos) se muevan correctamente según las leyes de la física. Luego, dejemos que los maquilladores y diseñadores de vestuario (la apariencia) hagan su trabajo".

Gracias a esta separación inteligente y a un nuevo conjunto de datos de entrenamiento, MoSA logra crear videos de personas que se mueven de forma lógica, fluida y realista, evitando esos movimientos extraños y antinaturales que solían tener las IAs. Es un gran paso hacia videos generados por IA que realmente parecen humanos reales.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "MOSA: MOTION-COHERENT HUMAN VIDEO GENERATION VIA STRUCTURE-APPEARANCE DECOUPLING" (MOSA: Generación de video humano coherente en movimiento mediante desacoplamiento estructura-apariencia), presentado en ICLR 2026.

1. El Problema

Los modelos de generación de video existentes, aunque logran alta fidelidad visual en la apariencia, sufren de limitaciones críticas al sintetizar movimientos humanos complejos. Específicamente, tienden a fallar en:

Coherencia estructural: Generan movimientos físicamente implausibles, anatomías distorsionadas o estructuras corporales inconsistentes.
Movimientos complejos: Tienen dificultades con dinámicas de cuerpo completo, movimientos a largo alcance y las interacciones entre el humano y el entorno (ej. contacto con objetos).
Dependencia de datos: Los conjuntos de datos actuales (como HumanVid o CelebV) se centran principalmente en rostros, partes superiores del cuerpo o movimientos simples (bailar), lo que limita la capacidad de los modelos para aprender dinámicas complejas.

El enfoque actual, que intenta generar apariencia y movimiento simultáneamente en el espacio de píxeles, prioriza la fidelidad visual a expensas de la coherencia estructural del movimiento.

2. Metodología: El Marco MoSA

La propuesta central de este trabajo es MoSA, un marco que desacopla el proceso de generación en dos ramas independientes pero interconectadas: Generación de Estructura y Generación de Apariencia.

A. Desacoplamiento Estructura-Apariencia

En lugar de generar el video directamente desde un prompt de texto, el modelo sigue un flujo de dos etapas:

Rama de Generación de Estructura ( $\mathcal{G}_s$ ):
- Utiliza un Transformador de Estructura 3D preentrenado en grandes conjuntos de datos de movimiento humano.
- Toma un prompt de texto (filtrado para extraer solo información de movimiento) y genera una secuencia de puntos clave (keypoints) 3D del cuerpo humano.
- Ventaja del 3D: Al operar en 3D, el modelo aprovecha la información de profundidad implícita, lo que garantiza la plausibilidad anatómica y maneja mejor las oclusiones (ej. una pierna detrás de otra) en comparación con la generación directa de esqueletos 2D.
- La secuencia 3D se proyecta a una representación de esqueleto 2D ( $g_s$ ) que sirve como guía estructural.
Rama de Generación de Apariencia ( $\mathcal{G}_a$ ):
- Utiliza un modelo base de difusión transformador (DiT), específicamente CogVideoX o Wan 2.1.
- Sintetiza el video visual (textura, entorno, sujeto) condicionado por el prompt de texto y la secuencia de estructura $g_s$ .
- El objetivo es mantener la alta fidelidad visual mientras se adhiere estrictamente a la guía estructural.

B. Módulos de Control Dinámico Consciente del Humano (HADC)

Dado que los esqueletos son representaciones esparsas, la guía para la generación de apariencia puede ser insuficiente para el control de detalles finos. Para solucionar esto, MoSA introduce módulos HADC:

Insertados entre los bloques del DiT.
Utilizan predictores de pesos dinámicos aprendibles para generar mapas de pesos que asignan importancia variable a diferentes regiones espaciales basándose en las características del esqueleto.
Esto permite propagar la guía del esqueleto esparsa a toda la región de movimiento, mejorando el control granular.
Se entrena con una pérdida de máscara ( $\mathcal{L}_m$ ) para asegurar que los pesos aprendidos se alineen con las regiones humanas reales.

C. Funciones de Pérdida y Restricciones

Para mejorar la coherencia temporal y la interacción física, se introducen dos componentes clave en la función de pérdida:

Pérdida de Seguimiento Denso (Dense Tracking Loss, $\mathcal{L}_{track}$ ):
- Utiliza CoTracker3 para extraer trayectorias de puntos en el video generado y el ground truth.
- Penaliza la inconsistencia en el movimiento a lo largo del tiempo, especialmente en intervalos largos, fomentando la coherencia de la estructura temporal.
Restricción de Contacto (Contact Constraint, $\mathcal{L}_{cont}$ ):
- Modela la interacción humano-entorno.
- Utiliza una representación de nube de puntos 3D y una función de distancia firmada (SDF) del entorno para penalizar la penetración física (ej. un humano atravesando un objeto o el suelo). Esto asegura que los movimientos sean físicamente plausibles.

3. Contribuciones Clave

Marco de Desacoplamiento Original: Es un esfuerzo pionero en separar la consistencia estructural de la síntesis de apariencia para la generación de video humano, demostrando que esto mejora la plausibilidad física.
Nuevos Módulos de Control: La introducción de los módulos HADC, la pérdida de seguimiento denso y la restricción de contacto implementan efectivamente el desacoplamiento, mejorando la guía estructural fina y la interacción con el entorno.
Conjunto de Datos MoVid: Se presenta un nuevo conjunto de datos a gran escala con 30,000 videos de movimiento humano real. A diferencia de los existentes, MoVid incluye una diversidad mucho mayor de acciones (cuerpo completo, interacciones complejas) y contextos ambientales, superando las limitaciones de datasets centrados en rostros o bailes verticales.

4. Resultados Experimentales

Los autores realizaron comparaciones exhaustivas contra modelos de generación de video general (Mochi 1, Wan 2.1, HunyuanVideo, CogVideoX), modelos de generación humana y modelos de animación.

Métricas Cuantitativas: MoSA superó significativamente a los métodos existentes en la mayoría de las métricas:
- FVD (Fréchet Video Distance): 1093 (el más bajo, indicando mejor calidad).
- CLIPSIM: 0.3035 (mejor alineación semántica con el texto).
- VBench: Logró puntuaciones superiores en consistencia del sujeto (96.83%), consistencia del fondo (97.43%) y suavidad del movimiento (99.25%).
Estudios Cualitativos: Las comparaciones visuales muestran que MoSA genera estructuras corporales razonables y movimientos fluidos en tareas complejas (patinar, correr escaleras, interacciones con objetos), mientras que los modelos base a menudo producen anatomías rotas o movimientos no físicos.
Estudios de Usuario: En evaluaciones humanas, MoSA obtuvo la mayor preferencia tanto en calidad de movimiento (30.26%) como en calidad de video (29.12%) frente a competidores de vanguardia.

5. Significado e Impacto

El trabajo de MoSA es significativo porque aborda una de las brechas más difíciles en la generación de video: la plausibilidad física y estructural de los humanos en movimiento.

Paradigma de Desacoplamiento: Establece un nuevo estándar al demostrar que tratar la estructura y la apariencia como problemas separados pero acoplados es más efectivo que la generación monolítica.
Interacción con el Entorno: La capacidad de modelar contactos físicos realistas (sin penetración) abre puertas para aplicaciones en simulación, robótica y entretenimiento donde la física es crucial.
Recurso de Datos: La liberación del dataset MoVid es un aporte vital para la comunidad, proporcionando el material de entrenamiento necesario para que los futuros modelos aprendan dinámicas humanas complejas que antes eran imposibles de generar.

En resumen, MoSA representa un avance sustancial hacia la generación de videos humanos que no solo se ven realistas, sino que se mueven de manera realista y físicamente coherente.