OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler ricostruire un intero mondo in 3D guardando un video, come se stessi camminando per una città e volessi creare una mappa digitale perfetta di tutto ciò che vedi.

Fino a poco tempo fa, i computer facevano questo in due modi, ma entrambi avevano un grosso problema:

Il metodo "Tutto insieme": Guardava l'intero video prima di iniziare. Era preciso, ma se il video era lungo, il computer si bloccava perché la memoria si riempiva come un secchio che trabocca.
Il metodo "In tempo reale": Guardava il video mentre scorreva, ma man mano che il video diventava più lungo, il computer iniziava a dimenticare le cose importanti o a impazzire perché la memoria si riempiva comunque, costringendolo a fermarsi dopo pochi minuti.

OVGGT è la soluzione magica che risolve questo problema. Ecco come funziona, spiegata con delle analogie semplici:

1. Il Problema: La Stanza che non finisce mai

Immagina che il computer abbia una stanza di lavoro (la memoria del chip grafico) molto piccola.
Quando guarda un video, ogni fotogramma (ogni immagine) porta con sé dei "lavoratori" (i dati) che devono essere tenuti in stanza per capire come si muove la telecamera e com'è fatto l'ambiente.
Nei vecchi sistemi, ogni nuovo fotogramma aggiungeva nuovi lavoratori senza mai licenziarne nessuno. Dopo un po', la stanza era così piena che non c'era più spazio per nessuno, e il sistema si spegneva (OOM - Out Of Memory).

2. La Soluzione OVGGT: Il "Filtro Intelligente"

OVGGT introduce un nuovo modo di gestire la stanza. Invece di tenere tutto, decide di mantenere sempre lo stesso numero di lavoratori, indipendentemente da quanto è lungo il video. Ma come fa a non perdere le informazioni importanti? Usa due trucchi geniali:

Trucco A: Il "Detective del Ruolo" (Self-Selective Caching)

Immagina che ogni fotogramma sia una folla di persone. Non tutte le persone sono ugualmente importanti per capire la geometria della stanza.

OVGGT ha un detective che guarda ogni persona (ogni dato) e le chiede: "Quanto sei utile in questo momento?".
Se una persona è solo rumore di fondo (es. un cielo uniforme), il detective la licenzia per fare spazio.
Se una persona sta facendo qualcosa di importante (es. definisce il bordo di un edificio o un oggetto con texture), il detective la tiene.
Il trucco: Questo detective non deve fermare il lavoro per pensare; guarda semplicemente quanto "si agitano" i dati mentre vengono processati. È come se il detective sapesse chi è importante guardando solo chi si sta muovendo di più nella folla.

Trucco B: Gli "Ancoraggi Magici" (Dynamic Anchor Protection)

C'è un rischio: se licenziamo troppa gente, il computer potrebbe perdere il senso di direzione e iniziare a costruire un mondo che si piega su se stesso (come se camminassi in tondo senza accorgertene).

OVGGT protegge speciali "ancoraggi":
1. L'Anchore Iniziale: I primi fotogrammi del video sono come la bussola. Vengono protetti per sempre per non perdere mai il punto di partenza.
2. Gli Ancoraggi Storici: Man mano che ci muoviamo in una nuova zona del video, OVGGT sceglie alcuni fotogrammi chiave recenti (quelli che si sovrappongono a quello che stiamo vedendo ora) e li "incolla" alla memoria.
Questo assicura che, anche dopo 10.000 fotogrammi, il computer sappia sempre esattamente dove si trova rispetto all'inizio, senza perdere la rotta.

3. Il Risultato: Un Video Infinito, una Memoria Fissa

Grazie a questi trucchi, OVGGT può guardare un video infinitamente lungo (anche ore di filmato) usando sempre la stessa quantità di memoria.

Prima: Dopo 200 fotogrammi, il computer si bloccava o diventava lento.
Ora: OVGGT mantiene la velocità e la precisione anche dopo 500, 1000 o 5000 fotogrammi.

In sintesi

OVGGT è come un cameriere super-efficiente in un ristorante affollato.

I vecchi camerieri portavano tutti i piatti sulla scrivania finché non si rompeva il tavolo.
OVGGT è un cameriere che, invece di accumulare tutto, mangia subito i piatti vuoti (licenzia i dati inutili) e tiene solo i piatti con il cibo prezioso (i dati importanti), assicurandosi di non dimenticare mai il tavolo del cliente (l'ancoraggio).

Il risultato? Puoi ricostruire il mondo intero in 3D guardando un video lungo ore, tutto su un singolo computer da gaming, senza che la memoria esploda. È un passo gigante verso robot e realtà aumentata che possono davvero "vedere" e capire il mondo mentre si muovono, senza mai fermarsi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Ricostruzione 3D in Streaming con Risorse Limitate

La ricostruzione della geometria 3D da flussi video continui è fondamentale per applicazioni come la navigazione autonoma, la realtà aumentata e la creazione di gemelli digitali. Tuttavia, i modelli fondazionali geometrici recenti (come VGGT) che offrono una qualità di ricostruzione eccezionale si basano su meccanismi di attenzione "all-to-all". Questo approccio ha una complessità quadratica ( $O(N^2)$ ) rispetto al numero di frame, rendendo impossibile l'elaborazione di sequenze lunghe a causa dell'esaurimento della memoria GPU (VRAM).

Le varianti esistenti per lo streaming (come StreamVGGT) utilizzano l'attenzione causale e una cache KV (Key-Value) che cresce linearmente nel tempo. Sebbene permettano l'inferenza in un solo passaggio, la cache KV continua ad accumularsi, portando a:

OOM (Out Of Memory): Il consumo di memoria supera la capacità della GPU dopo poche centinaia di frame.
Degradazione delle prestazioni: Il costo computazionale per frame aumenta linearmente con la lunghezza della sequenza, impedendo l'uso in tempo reale su sequenze lunghe.
Drift geometrico: La perdita di informazioni critiche durante la compressione della cache può causare errori cumulativi nella geometria ricostruita.

2. Metodologia: OVGGT

OVGGT è un framework senza addestramento (training-free) progettato per mantenere costi di memoria e computazione costanti ( $O(1)$ ) indipendentemente dalla lunghezza della sequenza video. Si basa su due componenti principali integrati nell'architettura di StreamVGGT:

A. Self-Selective Caching (SSC) - Caching Auto-Selezione

Per comprimere la cache KV a un budget fisso senza perdere informazioni geometriche cruciali, OVGGT introduce un meccanismo di selezione intelligente:

Valutazione del Valore di Attivazione (Activation Value Rating): Invece di usare le mappe di attenzione (non accessibili efficientemente con FlashAttention), il metodo utilizza la magnitudine del residuo del FFN (Feed-Forward Network). Poiché il FFN è già calcolato nel forward pass, questo punteggio è gratuito.
- I token con residui FFN elevati indicano regioni geometricamente salienti (texture, bordi, strutture).
- Questo approccio è pienamente compatibile con FlashAttention, mantenendo l'efficienza computazionale.
Smoothing Spaziale: Poiché i token geometrici hanno una struttura spaziale 2D, la selezione basata solo sui punteggi grezzi può frammentare il contesto. OVGGT applica una smussatura Gaussiana alla mappa di attivazione per garantire che gruppi di token spazialmente coerenti vengano mantenuti insieme, preservando la continuità locale necessaria per la previsione di profondità e punti 3D.
Compressione Ibrida (Hybrid Scoring): Per bilanciare i token del frame corrente (valutati con il residuo FFN) e i token storici (che non hanno un nuovo residuo), viene utilizzata una strategia ibrida che combina il punteggio di attivazione corrente con la diversità dei vettori chiave storici. I token meno informativi vengono eliminati per mantenere la cache entro il budget fisso.

B. Dynamic Anchor Protection (DAP) - Protezione Dinamica degli Ancoraggi

La semplice compressione della cache non è sufficiente per garantire la coerenza geometrica su lunghe traiettorie, poiché il sistema potrebbe perdere i riferimenti necessari per il sistema di coordinate globale.

Ancoraggio Iniziale Globale: Tutti i token del primo frame sono protetti permanentemente. Questo preserva l'origine del sistema di coordinate per l'intera inferenza.
Ancoraggi Storici Dinamici: Man mano che la telecamera si sposta, il primo frame potrebbe non avere più sovrapposizione visiva con la vista corrente. OVGGT registra dinamicamente nuovi "ancoraggi" (frame storici) quando la sovrapposizione visiva scende sotto una soglia.
- Solo i token più confidenziali (basati sull'output della testa della nuvola di punti) di questi frame vengono protetti.
- Un limite massimo di ancoraggi attivi (FIFO) previene l'accumulo eccessivo di memoria.
  Questa strategia protegge i token critici per la geometria dall'essere eliminati, sopprimendo il "drift" geometrico.

3. Contributi Chiave

OVGGT: Un framework di streaming online che esegue l'inferenza 3D su video di lunghezza arbitraria con memoria e computazione costanti, eliminando il collo di bottiglia di scalabilità delle pipeline causali esistenti.
Self-Selective Caching (SSC): Una tecnica di compressione della cache basata sui residui FFN e sulla smussatura spaziale, che riduce la cache a un budget fisso mantenendo la compatibilità con FlashAttention e senza richiedere modifiche architetturali o addestramento.
Dynamic Anchor Protection (DAP): Un meccanismo che protegge selettivamente i token critici per le coordinate (iniziali e storici) per garantire la stabilità geometrica su lunghe distanze, risolvendo il problema del drift unico allo streaming geometrico.
Prestazioni Superiori: Dimostrazione che la rimozione selettiva dei token ridondanti può effettivamente migliorare la qualità della ricostruzione rispetto alla conservazione dell'intera cache.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su benchmark indoor (7-Scenes, NRGBD), outdoor (ETH3D) e sequenze ultra-lunghe (Long3D, fino a 10.000 frame), utilizzando una singola GPU consumer (NVIDIA RTX 5090 da 32 GB).

Qualità di Ricostruzione: OVGGT supera tutti i baselines (StreamVGGT, Evict3R, InfiniteVGGT) in termini di accuratezza (Acc), completezza (Comp) e coerenza delle normali (NC).
- Su sequenze di 500 frame, StreamVGGT va in OOM o degrada pesantemente, mentre OVGGT mantiene una ricostruzione ad alta fedeltà.
- Su sequenze ultra-lunghe (1000+ frame), OVGGT mostra una stabilità superiore, riducendo l'accumulo di rumore tipico dei metodi che conservano cache non ottimizzate.
Efficienza e Memoria:
- Memoria VRAM: OVGGT mantiene un utilizzo della memoria costante (circa 10-12 GB per un budget di 200k token), permettendo l'elaborazione di migliaia di frame su GPU consumer. StreamVGGT supera i 32 GB già a ~200 frame.
- Velocità (FPS): Grazie al costo $O(1)$ per frame, OVGGT raggiunge velocità di inferenza superiori (fino a 14.2 FPS su sequenze lunghe) rispetto ai metodi concorrenti che subiscono un rallentamento progressivo.
Stima della Profondità: OVGGT dimostra una maggiore robustezza nella stima della profondità su video dinamici (KITTI, Bonn), mantenendo errori bassi anche su sequenze lunghe dove altri metodi accumulano errori significativi.

5. Significato e Impatto

OVGGT rappresenta un passo avanti significativo verso la ricostruzione 3D in tempo reale e illimitata.

Superamento del collo di bottiglia della memoria: Risolve il problema fondamentale che ha finora limitato l'uso dei modelli fondazionali geometrici a brevi clip offline.
Accessibilità: Permette l'esecuzione di modelli complessi di geometria 3D su GPU consumer standard, rendendo la tecnologia accessibile per applicazioni reali (robotica, AR/VR) senza bisogno di cluster di server costosi.
Paradigma di Gestione della Memoria: Introduce un approccio innovativo alla gestione della cache nei Transformer visivi, dimostrando che la selezione intelligente dei token basata sulla salienza geometrica è superiore alla semplice conservazione di tutti i dati o alla compressione casuale.

In sintesi, OVGGT abilita l'inferenza geometrica continua su orizzonti temporali indefiniti, combinando alta precisione, stabilità geometrica ed efficienza computazionale costante.