PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
Le papier présente PrismAudio, un cadre novateur pour la génération vidéo-à-audio qui intègre l'apprentissage par renforcement avec une décomposition en chaînes de pensée spécialisées et des récompenses multidimensionnelles, résolvant ainsi les problèmes d'entrelacement des objectifs et atteignant des performances de pointe grâce à une méthode d'optimisation efficace et un nouveau benchmark rigoureux.