OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas vergesslichen Architekten, der eine 3D-Karte einer Stadt zeichnen soll, während du mit einer Kamera durch die Straßen läufst.

Das Problem bei den bisherigen Architekten (den alten KI-Modellen) war: Je länger du läufst, desto mehr Notizen muss er machen. Irgendwann ist sein Notizblock so voll, dass er platzt (der Computer-Speicher wird voll), und er muss aufhören. Oder er versucht, alles auf einmal zu behalten, wird aber so langsam, dass er nicht mehr in Echtzeit mithalten kann.

OVGGT ist wie ein neuer, genialer Assistent für diesen Architekten. Er kann unendlich lange laufen, ohne dass sein Notizblock voll wird, und er zeichnet dabei immer noch perfekt.

Hier ist, wie er das macht, erklärt mit einfachen Bildern:

1. Das Problem: Der überfüllte Rucksack

Frühere Modelle (wie StreamVGGT) haben versucht, jede einzelne Information aus jedem Bild, das sie gesehen haben, in ihren Rucksack (den Speicher) zu packen.

Das Ergebnis: Nach ein paar hundert Bildern war der Rucksack so schwer, dass der Architekt (die Grafikkarte) zusammenbrach. Er musste aufhören, bevor er das Ziel erreicht hatte.

2. Die Lösung: OVGGT – Der intelligente Koffer

OVGGT hat eine feste Größe für seinen Koffer. Egal, ob du 50 oder 50.000 Bilder machst, der Koffer bleibt gleich groß. Aber wie schafft er es, trotzdem die ganze Stadt zu verstehen? Er nutzt zwei Tricks:

Trick A: Der "Wichtigkeits-Radar" (Self-Selective Caching)

Stell dir vor, der Architekt muss entscheiden, welche Notizen er behalten darf, wenn der Koffer voll ist.

Die alte Methode: Er behielt einfach alles oder wählte zufällig.
OVGGT-Methode: Er hat einen Radar, der sofort erkennt: "Ist diese Information wichtig?"
- Er schaut sich an, wie stark ein Bildteil "leuchtet" (mathematisch: die Aktivierung im Gehirn der KI).
- Wenn ein Bildteil nur eine leere Wand ist, ist das nicht wichtig -> Weg damit!
- Wenn ein Bildteil eine Ecke, ein Fenster oder eine Tür ist (wichtige geometrische Strukturen), ist das wichtig -> Behalten!
- Der Clou: Er macht das so schnell, dass er keine extra Zeit verliert. Er wirft die unnötigen Dinge sofort raus, bevor der Koffer überläuft.

Trick B: Die "Anker-Bojen" (Dynamic Anchor Protection)

Das ist der wichtigste Teil, damit die Karte nicht verrutscht.

Das Problem: Wenn man nur die "wichtigsten" Teile behält, könnte man versehentlich die Referenzpunkte verlieren, die sagen: "Hier ist der Anfang der Straße". Ohne diese Referenzen würde die 3D-Karte sich im Laufe der Zeit verzerren (wie ein Gummiband, das sich dehnt).
Die Lösung: OVGGT nagelt bestimmte, extrem wichtige Punkte fest.
- Der Start-Anker: Der allererste Blick auf die Welt wird für immer festgehalten. Das ist der Nullpunkt, an dem alles gemessen wird.
- Die historischen Anker: Wenn man weit weg vom Startpunkt ist, hält er sich auch an andere wichtige Meilensteine fest, die er unterwegs gesehen hat.
- Die Analogie: Stell dir vor, du bindest ein Seil an einen Baum (Start). Wenn du weiterläuft, bindest du das Seil an einen neuen Baum (Anker), damit es nicht zu lang wird und du den Weg nicht verlierst. OVGGT stellt sicher, dass diese "Bäume" nie aus dem Koffer geworfen werden, egal wie voll er ist.

3. Das Ergebnis: Unendliche Reise

Dank dieser zwei Tricks passiert Folgendes:

Kein Speicher-Überlauf: Der Koffer bleibt immer gleich groß. Du kannst 500 Bilder oder 50.000 Bilder machen – es macht keinen Unterschied für den Speicher.
Schnelligkeit: Da er nicht alles neu berechnen muss, ist er super schnell (Echtzeit).
Qualität: Die 3D-Karte ist schärfer und genauer als bei den alten Modellen, weil er sich auf das Wesentliche konzentriert und nicht durch unnötigen "Müll" im Speicher abgelenkt wird.

Zusammenfassung in einem Satz

OVGGT ist wie ein unermüdlicher Reiseführer, der sich nur die wichtigsten Sehenswürdigkeiten merkt, aber immer einen Faden zurück zum Startpunkt behält, sodass er eine perfekte Karte von einer unendlich langen Reise zeichnen kann, ohne jemals seinen Rucksack zu überladen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Rekonstruktion von 3D-Geometrie aus Streaming-Videos erfordert eine kontinuierliche Inferenz unter begrenzten Ressourcen.

Herausforderung bei bestehenden Modellen:
- Geometrische Foundation Models (wie VGGT) nutzen „All-to-All"-Attention, was zu einer quadratischen Komplexität ( $O(N^2)$ ) führt. Dies begrenzt sie auf kurze, offline Sequenzen, da der GPU-Speicher (VRAM) bereits bei ca. 300 Frames erschöpft ist.
- Streaming-Varianten (wie StreamVGGT) nutzen kausale Attention und cachen Key-Value (KV) Paare, um einen Single-Pass zu ermöglichen. Das Problem hierbei ist jedoch das lineare Wachstum des KV-Caches. Bei langen Sequenzen (z. B. 100+ Frames) füllt sich der Cache den VRAM, und die Inferenzkosten pro Schritt steigen mit der Sequenzlänge an. Dies macht den Einsatz für lange, kontinuierliche 3D-Rekonstruktion unmöglich.
Ziel: Ein Framework zu entwickeln, das beliebig lange Videos verarbeitet, dabei jedoch konstanten Speicherbedarf (VRAM) und konstante Rechenkosten pro Frame ( $O(1)$ ) garantiert, ohne die Rekonstruktionsqualität zu beeinträchtigen.

2. Methodik: OVGGT

OVGGT ist ein training-freies Framework, das auf der Architektur von StreamVGGT aufbaut und zwei komplementäre Komponenten einführt, um den KV-Cache auf ein festes Budget zu begrenzen:

A. Self-Selective Caching (SSC)

Dieser Mechanismus komprimiert den Inferenz-Cache auf ein festes Budget, indem er entscheidet, welche Token behalten und welche verworfen werden.

Aktivierungs-Wert-Bewertung (Activation Value Rating): Anstatt auf Attention-Gewichte zu setzen (die bei FlashAttention nicht direkt verfügbar sind), nutzt SSC die Magnitude der FFN-Residuen (Feed-Forward Network).
- Begründung: Die Größe des FFN-Residuums korreliert stark mit der geometrischen Salienz eines Tokens (Textur in flachen Schichten, geometrische Strukturen in mittleren Schichten, semantische Grenzen in tiefen Schichten).
- Vorteil: Diese Metrik ist bereits während des Forward-Passes berechnet, erfordert keinen zusätzlichen Overhead und ist kompatibel mit FlashAttention.
Aktivierungs-Glättung (Activation Smoothing): Um räumlich fragmentierte Token-Auswahl zu vermeiden (was die Rekonstruktion verschmiert), wird eine Gaußsche Glättung über die 2D-Aktivierungskarte angewendet. Dies fördert das Beibehalten kohärenter Token-Gruppen, was für die lokale Geometrie (Tiefe/Punktwolken) essenziell ist.
Hybrid Scoring für Cache-Kompression:
- Für neue Token (aktueller Frame) wird die Aktivierungs-Score verwendet.
- Für historische Token (im Cache) wird eine Diversitäts-Score verwendet (basierend auf der Abweichung vom mittleren Key-Vektor), da diese keine aktuellen Aktivierungswerte haben.
- Ein Balance-Parameter ( $\beta$ ) gewichtet diese beiden Scores, um eine Mischung aus aktuellen Informationen und historischer Abdeckung zu gewährleisten.

B. Dynamic Anchor Protection (DAP)

Da reines Caching zu einem „Drift" der Geometrie führen kann, wenn wichtige Referenz-Token verworfen werden, schützt DAP kritische Token vor dem Löschen.

Global Initial Anchor: Alle Token des ersten Frames werden permanent geschützt, um die Konsistenz des Koordinatensystems über die gesamte Sequenz hinweg zu gewährleisten.
Historical Anchors: Adaptive Anker werden registriert, wenn die visuelle Überlappung zwischen dem aktuellen Frame und dem letzten Anker unter einen Schwellenwert fällt. Diese Anker schützen die wichtigsten Token (basierend auf der Punktwolken-Konfidenz) der jeweiligen Referenzframes.
FIFO-Strategie: Die Anzahl der aktiven Anker ist begrenzt; älteste Anker werden verworfen, wenn das Limit erreicht ist, um den Speicherbedarf konstant zu halten.

3. Hauptbeiträge

OVGGT Framework: Ein training-freies Online-Streaming-Framework, das 3D-Inferenz aus beliebig langen Videos unter festen Speicher- und Rechenbudgets ermöglicht.
Self-Selective Caching (SSC): Eine innovative Methode zur Cache-Kompression, die FFN-Residuen nutzt, um Token-Salienz zu bewerten, und dabei vollständig mit FlashAttention kompatibel bleibt.
Dynamic Anchor Protection (DAP): Ein Mechanismus zum Schutz koordinatenspezifischer Token (Initial- und Historische Anker), der geometrischen Drift über lange Trajektorien effektiv unterdrückt.
State-of-the-Art Ergebnisse: Demonstration von überlegener geometrischer Genauigkeit bei gleichzeitig niedrigerem VRAM-Verbrauch und höherem Durchsatz im Vergleich zu bestehenden kausalen Streaming-Methoden.

4. Ergebnisse

Die Evaluation erfolgte auf Benchmarks für Innenräume (7-Scenes, NRGBD), Außenbereiche (ETH3D) und ultra-lange Sequenzen (Long3D bis zu 10.000 Frames).

Qualität (Accuracy): OVGGT erreicht auf allen Datensätzen die besten Ergebnisse. Interessanterweise übertrifft OVGGT sogar das Full-Cache-Modell (StreamVGGT) bei langen Sequenzen, da das Entfernen redundanter Token die Rekonstruktion verbessert.
Ressourceneffizienz:
- VRAM: OVGGT bleibt bei einem festen Budget (z. B. 200k Token, ~10 GB VRAM) und bewältigt 500+ Frames, während StreamVGGT bei ca. 200 Frames einen Out-of-Memory (OOM) Fehler verursacht.
- FPS (Durchsatz): OVGGT erreicht mit ca. 14 FPS einen deutlich höheren Durchsatz als StreamVGGT (der bei längeren Sequenzen langsamer wird) und andere Baselines.
- Konstanz: Die Kosten pro Frame bleiben konstant ( $O(1)$ ), unabhängig von der Sequenzlänge.
Video-Tiefenschätzung: OVGGT zeigt stabile Genauigkeit über lange Sequenzen hinweg, während andere Methoden bei zunehmender Länge einen Anstieg des Fehlers (Drift) aufweisen.

5. Bedeutung und Ausblick

OVGGT löst das fundamentale Skalierungsproblem von Transformer-basierten geometrischen Modellen für das Streaming.

Praktische Relevanz: Es ermöglicht die Echtzeit-3D-Rekonstruktion auf Consumer-GPUs (z. B. RTX 5090) für Anwendungen wie autonomes Fahren, Robotik und AR/VR, wo lange, ununterbrochene Videoeingänge erforderlich sind.
Paradigmenwechsel: Es beweist, dass ein festes Cache-Budget nicht nur notwendig ist, sondern bei intelligenter Token-Auswahl (SSC) und Anker-Schutz (DAP) sogar zu besseren Ergebnissen führen kann als das Speichern aller Daten.
Limitationen: Da es sich um einen Single-Pass-Ansatz handelt, können sich geometrische Fehler akkumulieren und nicht korrigiert werden (kein globaler Refinement-Schritt). Die Autoren sehen „staged streaming inference" als zukünftige Richtung, um dies zu mildern.

Zusammenfassend stellt OVGGT einen bedeutenden Fortschritt dar, der die Lücke zwischen der hohen Qualität von Offline-Modellen und den Anforderungen an ressourceneffizientes, langes Streaming schließt.