SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens
SceMoS è un framework innovativo per la sintesi di movimenti umani 3D guidati dal testo che, disaccoppiando la pianificazione globale dall'esecuzione locale tramite rappresentazioni 2D (immagini BEV e mappe di altezza), raggiunge uno stato dell'arte nel realismo e nell'accuratezza dei contatti riducendo al contempo i parametri di addestramento rispetto ai metodi basati su dati 3D completi.