Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
Le papier présente VIST3A, un cadre général qui combine un générateur de vidéos text-to-video et un réseau de reconstruction 3D par assemblage de modèles et alignement par récompense directe, permettant ainsi une génération de scènes 3D de haute qualité et cohérente à partir de texte.