NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction
Il paper presenta NOVA3R, un approccio feed-forward basato su Transformer che, utilizzando un meccanismo di token di scena e un decoder di diffusione, ricostruisce amodalmente geometrie 3D complete e non allineate ai pixel a partire da immagini non posizionate, superando i limiti dei metodi tradizionali legati all'allineamento per raggio.