Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy
Este trabalho apresenta um novo framework unificado baseado em física que utiliza Modelos Visão-Linguagem (VLMs) e a dinâmica de movimento relativo guiada por VLM (RMD) para sintetizar automaticamente interações humano-objeto de longo prazo e diversificadas, eliminando a necessidade de dados de captura de movimento caros ou engenharia manual de recompensas.