Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
Das Paper stellt VIST3A vor, ein Framework, das einen vortrainierten Text-zu-Video-Generator durch Stitching mit einem 3D-Rekonstruktionsnetzwerk verbindet und mittels direkter Belohnungsfine-Tuning für konsistente Text-zu-3D-Generierung optimiert.