Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy
Questo lavoro presenta un nuovo framework unificato per la sintesi di interazioni uomo-oggetto che sfrutta i modelli visione-linguaggio per generare automaticamente politiche di movimento e funzioni di ricompensa, superando la necessità di dati di motion capture costosi o di ingegneria manuale delle ricompense.