XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
Il paper presenta XStreamVGGT, un approccio senza necessità di riaddestramento che ottimizza l'inferenza streaming per la ricostruzione 3D tramite la compressione della cache KV mediante pruning e quantizzazione, riducendo drasticamente l'uso di memoria e la latenza senza compromettere le prestazioni.