Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🌍 De Dilemma: Een Supercomputer in je Broekzak?

Stel je voor dat je een geniale architect hebt die in één oogopslag een compleet 3D-gebouw kan bouwen op basis van een paar foto's. Dit is wat het model VGGT (Visual Geometry Grounded Transformer) doet. Het is een enorme, slimme AI die 3D-werelden kan reconstrueren.

Maar er is een probleem: deze architect woont in een gigantisch kasteel met duizenden kamers. Hij heeft een enorme hoeveelheid energie (rekenkracht) en ruimte (geheugen) nodig om te werken. Je kunt hem niet meenemen in je telefoon of een kleine drone; hij is te zwaar en te traag.

De oplossing? Je wilt de architect "verkleinen" zodat hij in je broekzak past, zonder dat hij zijn slimheid verliest. Dit noemen we kwantisatie (het omzetten van zware, precieze getallen naar lichtere, simpelere getallen).

🚧 Het Probleem: Waarom andere methoden falen

Tot nu toe lukte het verkleinen van dit specifieke model niet goed. Waarom? Omdat VGGT twee rare eigenschappen heeft die andere methoden in de war brengen:

  1. De "Vaste Gasten" (Special Tokens):
    Stel je voor dat je een foto van een straat maakt. Meestal zijn alle onderdelen (auto's, bomen, mensen) variabel. Maar VGGT heeft ook een paar "vaste gasten" die altijd in het beeld staan, ongeacht wat er op de foto staat (zoals een camera-token of register-token).
    • De analogie: Het is alsof je een gewone foto van een feestje wilt comprimeren, maar er staat ook een gigantische, felgekleurde ballon in de hoek die nooit weggaat. Als je de hele foto verkleint, wordt die ballon zo groot dat hij de rest van de foto overneemt en alles vervormt. De andere details (de mensen) worden onherkenbaar.
  2. De "Chaos van de Beelden" (Multi-view Data):
    VGGT kijkt naar veel verschillende hoeken tegelijk. Als je een proefgroepje kiest om het model te "trainen" voor het verkleinen, is het heel lastig om een eerlijke groep te vinden.
    • De analogie: Je wilt een recept voor een soep maken dat voor iedereen smaakt. Maar als je alleen maar mensen uitnodigt die extreem van chili houden (uitbijters), zal je soep te pittig zijn voor de rest. Bij 3D-data zijn die "chili-liefhebbers" (uitbijters) heel vaak aanwezig, waardoor je het recept (de instellingen) verkeerd instelt.

✨ De Oplossing: QuantVGGT

De auteurs van dit paper hebben een nieuwe methode bedacht, QuantVGGT, die deze twee problemen slim oplost. Ze gebruiken twee creatieve trucs:

1. De "Draai- en Gladmakende Truc" (Dual-Smoothed Fine-Grained Quantization)

In plaats van de "grote ballon" (de vaste gasten) gewoon te laten zitten, doen ze twee dingen:

  • Draaien (Hadamard Rotation): Ze draaien de hele foto een beetje. Hierdoor verspreidt de felgekleurde ballon zich over de hele foto. Hij is niet meer één enorme vlek, maar een lichte tint overal.
  • Gladmaken (Smoothing): Daarna maken ze de verdeling nog wat gelijkmatiger, zodat er geen enkele plek meer is die te zwaar is.
  • Het resultaat: De "ballon" is nu verdwenen als storend element, en de foto kan veilig worden verkleind zonder dat de details (de mensen) vervormen.

2. De "Slimme Selectie" (Noise-Filtered Diverse Sampling)

Voor het trainen van het verkleinde model moeten ze een selectie maken van foto's.

  • Filteren: Eerst kijken ze welke foto's "ruis" of extreme uitschieters hebben (zoals die ene foto met de gigantische ballon) en gooien die eruit.
  • Groeperen: Vervolgens kijken ze niet naar de inhoud van de foto (is het een auto of een boom?), maar naar de relatie tussen de beelden. Ze groeperen foto's die op dezelfde manier bewegen of kijken.
  • Het resultaat: Ze krijgen een perfecte, evenwichtige groep foto's om het model op te trainen. Geen rare uitschieters, maar een eerlijke representatie van de wereld.

🏆 Het Resultaat: Een Supermodel in je Broekzak

Wat levert dit op?

  • Snelheid: Het model werkt nu 2,5 keer sneller.
  • Ruimte: Het heeft 3,7 keer minder geheugen nodig.
  • Kwaliteit: En het belangrijkste: het bouwt de 3D-wereld nog steeds 98% even goed na als het oorspronkelijke, zware model.

Kortom: QuantVGGT is als het verpakken van een zware, dure diamant in een klein, licht doosje. Je kunt de diamant nu overal mee naartoe nemen (naar je telefoon of drone), en hij glanst nog steeds net zo mooi als voorheen. Dit maakt geavanceerde 3D-reconstructie voor het eerst echt mogelijk op gewone apparaten.