Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
Este trabalho propõe um novo framework para previsão de ocupação de vocabulário aberto em cenas internas usando apenas uma câmera, que supera as limitações dos métodos existentes ao empregar uma supervisão baseada apenas em geometria binária e uma representação unificada de Gaussians com embeddings linguísticos, alcançando desempenho superior no conjunto de dados Occ-ScanNet.