UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding
Ce papier présente UniUGG, le premier cadre unifié exploitant un LLM et un décodeur spatial basé sur la diffusion latente pour réaliser simultanément la compréhension et la génération de scènes 3D à partir d'images de référence et de transformations de vue, tout en répondant à des questions visuelles spatiales grâce à une stratégie d'apprentissage combinant indices géométriques et sémantiques.
Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs