TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat is een feed-forward framework dat semantisch uitgelijnde tokens en een asymmetrische decoder gebruikt om direct uit ongepositioneerde beelden zowel hoogwaardige 3D-Gaussische reconstructies als nauwkeurige cameraposities te genereren zonder iteratieve verfijning.

Yihui Li, Chengxin Lv, Zichen Tang, Hongyu Yang, Di Huang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kamer binnenloopt en vanuit verschillende hoeken foto's maakt. Je wilt nu een perfecte, driedimensionale kopie van die kamer maken, zodat je er virtueel doorheen kunt lopen.

Vroeger was dit een enorme klus. Je moest eerst een ingewikkelde berekening doen om te achterhalen waar de camera precies stond bij elke foto (de "pose"). Als je die berekening verkeerd deed, was je 3D-model een puinhoop. Het was alsof je een puzzel probeert op te lossen zonder te weten hoe de randstukken eruitzien.

TokenSplat is de nieuwe, slimme oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald in alledaagse taal:

1. De "Token" als een slimme postbode

Stel je voor dat elke foto niet uit miljoenen losse pixels bestaat, maar uit een handvol slimme postbodes (de "tokens").

  • Hoe het vroeger werkte: De computer keek naar elke pixel afzonderlijk. Als je 10 foto's had, kreeg hij 10 keer zo veel werk, en vaak kwamen dezelfde postbodes uit verschillende hoeken op precies dezelfde plek aan. Dat leidde tot een rommelige, dubbelzinnige boodschap (redundantie).
  • Hoe TokenSplat werkt: De postbodes praten eerst met elkaar in een virtuele vergaderzaal (de "feature space"). Ze zeggen: "Hé, jij bent de postbode voor de vaas op de linkerkant, en jij bent de postbode voor diezelfde vaas op de rechterkant." Ze bundelen hun kennis direct. Zo krijgen ze een perfect, gezamenlijk beeld van de vaas voordat ze überhaupt beginnen met bouwen. Dit noemen ze Token-aligned.

2. De Twee Sporen: De Architect en de Navigator

Het grootste probleem bij het maken van 3D-modellen is dat je twee dingen tegelijk moet doen:

  1. De vorm van de kamer bouwen (de Architect).
  2. Bepalen waar de camera stond toen de foto werd gemaakt (de Navigator).

In oude systemen liepen deze twee vaak door elkaar heen. De Architect werd verward door de Navigator en vice versa, waardoor het model trilde of scheef werd.

TokenSplat gebruikt een slimme Asymmetrische Dubbele Stroom (ADF-Decoder):

  • De Navigator (camera-token) kijkt naar de Architect en zegt: "Ik zie de lijnen van de muur, dus ik weet nu waar ik stond."
  • De Architect (beeld-token) luistert naar de Navigator, maar laat de Navigator niet alles overnemen. De Navigator geeft alleen een stabiel, kalmer signaal terug: "Ik ben hier, bouw rustig verder."
  • De metafoor: Het is alsof een architect en een gids samenwerken. De gids wijst de weg, maar hij mag niet in de bouwplannen gaan rommelen. Zo blijft de constructie stevig, terwijl de gids precies weet waar hij is.

3. Geen "Iteratief" Goochelwerk

Oude methoden waren als iemand die een bal probeert te vangen door eerst te gooien, te kijken of hij hem mist, en dan weer te gooien. Dit proces (iteratie) kost veel tijd en energie.

TokenSplat is feed-forward: het is als een super-snel schietend net. In één keer, zonder te hoeven terugkijken of te corrigeren, vangt het de hele scène en de camera-posities. Het is alsof je een foto maakt en in een flits een perfecte 3D-reconstructie hebt, zonder dat je computer uren moet nadenken.

Waarom is dit zo cool?

  • Het werkt zonder GPS: Je hoeft niet te weten waar je camera stond. Je kunt gewoon een hoop willekeurige foto's maken (zelfs met je telefoon) en het systeem werkt het uit.
  • Geen rommel: Omdat de postbodes (tokens) eerst samenvoegen voordat ze bouwen, krijg je geen dubbele muren of zwevende deeltjes. Het resultaat is strak en schoon.
  • Het groeit mee: Of je nu 3 foto's of 30 foto's hebt, het systeem blijft stabiel. Bij andere methoden wordt het beeld wazig als je te veel foto's toevoegt, maar TokenSplat blijft scherp.

Kortom: TokenSplat is als een slimme, snelle bouwmeester die een kamer kan reconstrueren uit een hoop losse foto's, zonder dat hij eerst een kompas nodig heeft. Hij praat met zijn team (de tokens) om de beste plannen te maken, en bouwt het in één keer perfect op.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →