PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition
Das Paper stellt PRISM vor, ein einheitliches Modell für die Streaming-Generierung menschlicher Bewegungen, das durch einen joint-faktorisierten latenten Raum und eine rauschfreie Bedingungsinjektion die Entanglement-Probleme bestehender Autoencoder löst und gleichzeitig Text-zu-Bewegung, pose-bedingte Generierung sowie autoregressive Sequenzsynthese in einem einzigen Framework vereint.