Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy
Cet article présente un cadre unifié de synthèse d'interactions humain-objet qui exploite les modèles vision-langage pour générer automatiquement des politiques de mouvement et des fonctions de récompense via une nouvelle représentation dynamique relative, éliminant ainsi le besoin de données de capture de mouvement coûteuses ou d'ingénierie manuelle des récompenses.