DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary
Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.