Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training
In dit paper wordt Spatial-TTT voorgesteld, een model dat testtijd-training (TTT) en een hybride architectuur met 3D-spatiotemporale convolutie combineert om streaming videobeelden efficiënt te verwerken en langdurige ruimtelijk-intelligente representaties te leren, wat resulteert in state-of-the-art prestaties op benchmarks voor ruimtelijk begrip.