Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training
El artículo presenta Spatial-TTT, un marco de inteligencia espacial basado en video que utiliza entrenamiento en tiempo de prueba (TTT) y una arquitectura híbrida con mecanismos predictivos espaciales para mantener y actualizar eficientemente la evidencia espacial a partir de flujos de video ilimitados, logrando un rendimiento superior en benchmarks de comprensión espacial a largo plazo.