Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy
Este trabajo presenta un marco unificado basado en física que utiliza Modelos Visuales-Lingüísticos (VLM) y una nueva representación de Dinámicas de Movimiento Relativo (RMD) para sintetizar automáticamente interacciones humano-objeto a largo plazo sin necesidad de ingeniería manual de recompensas, superando a los métodos existentes en naturalidad y generalización.