Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning
O artigo apresenta o Spa3R, um framework auto-supervisionado que utiliza o paradigma de Modelagem de Campo Espacial Preditivo (PSFM) para aprender representações espaciais unificadas a partir de imagens 2D não calibradas, permitindo que modelos de linguagem e visão (VLMs) alcancem um raciocínio espacial 3D superior sem depender de modalidades 3D explícitas.