DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary
この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用(HOI)ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。