Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training
O artigo apresenta o Spatial-TTT, um modelo que utiliza treinamento no momento da inferência (TTT) e uma arquitetura híbrida com mecanismo preditivo espacial para processar fluxos de vídeo contínuos, permitindo a manutenção e atualização eficiente de evidências espaciais de longo prazo e alcançando desempenho superior em benchmarks de inteligência espacial visual.