DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary
El artículo presenta DISPLAY, un marco de generación de videos de interacción humano-objeto que logra un control intuitivo y alta fidelidad mediante una guía de movimiento dispersa (coordenadas de muñeca y cajas delimitadoras de objetos) y una estrategia de entrenamiento auxiliar multi-tarea para superar las limitaciones de flexibilidad y consistencia física de los métodos existentes.