DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok is een efficiënte 3D-tokenizer voor rijscènes die semantische, geometrische en textuurinformatie integreert om via een uniek token-representatie multi-view reconstructie en diverse begrijpende taken op het nuScenes-dataset te verbeteren.

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

Gepubliceerd 2026-03-20
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bent. Je hebt zes camera's aan de boord, die allemaal tegelijk naar de weg, andere auto's, bomen en de hemel kijken. Voor een mens is dit makkelijk: je hersenen bouwen direct een 3D-gevoel op van wat er om je heen gebeurt. Maar voor een computer is dit een enorme chaos. De computer ziet zes aparte, platte foto's. Als hij die één voor één bekijkt, raakt hij de draad kwijt: "Is dat diezelfde boom links en rechts? Hoe ver weg is die auto echt?"

Tot nu toe probeerden computers die foto's te comprimeren (in te korten) alsof ze losse postkaarten waren. Maar dat werkt niet goed voor rijden, want je mist het 3D-gevoel en het kost te veel rekenkracht.

DriveTok is de oplossing die de auteurs van dit paper hebben bedacht. Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De "Super-Vertaler" (De Encoder)

Stel je voor dat je zes verschillende vertalers hebt die elk een verhaal in een andere taal vertellen. Normaal gesproken zou je ze allemaal apart moeten lezen. DriveTok doet iets slimmers: het pakt al die zes verhalen en vertaalt ze direct naar één enkel, perfect samenvattend verhaal in een nieuwe taal.

In de wereld van de auto noemen ze dit "Scene Tokens".

  • Het oude probleem: De computer hield 10.000 losse stukjes informatie vast (voor elke pixel in elke foto).
  • De DriveTok-methode: De computer vat alles samen in een vast aantal "hoofdpersonages" (bijvoorbeeld 16.000 stukjes). Deze stukjes weten precies waar ze in de 3D-wereld staan, ongeacht of ze van links of rechts zijn gefotografeerd. Het maakt niet uit of de foto's groot of klein zijn; het resultaat is altijd hetzelfde compacte pakketje.

2. De "Onzichtbare Netten" (De Decoder)

Nu heeft de computer dat compacte pakketje met de "essentie" van de wereld. Maar wat moet hij ermee doen? DriveTok kan dit pakketje weer terugveranderen in verschillende dingen, afhankelijk van wat nodig is:

  • Terug naar foto's: Hij kan de originele beelden weer reconstrueren (alsof hij de foto's opnieuw tekent).
  • Diepte voelen: Hij kan zeggen hoe ver alles weg is (dieptekaart).
  • Betekenis geven: Hij kan zeggen "dit is een weg", "dat is een voetganger" of "dat is een boom".
  • 3D Ruimte vullen: Hij kan een volledig 3D-voorstelling maken van de hele ruimte, inclusief wat er achter de andere auto's zit.

3. De "Magische Bril" (Visibility-Guided Attention)

Dit is het slimste onderdeel. Stel je voor dat je door een raam kijkt. Je ziet wat er buiten is, maar je ziet niet wat er achter de muur is.
DriveTok gebruikt een speciale "magische bril" (visibility-guided attention). Deze bril zorgt ervoor dat de computer alleen informatie uitwisselt als het fysiek mogelijk is om dat te zien.

  • Als een camera een boom ziet, mag die boom "praten" met de 3D-token van die boom.
  • Maar als die boom achter een ander voertuig zit en de camera kan hem niet zien, dan mag hij niet praten.
    Dit voorkomt dat de computer in de war raakt en zorgt dat hij een eerlijke, fysiek correcte 3D-wereld bouwt.

Waarom is dit zo belangrijk?

Vroeger waren auto's slim in "zien" (wat is dat?) en "rekenen" (hoe ver is het?). Maar ze waren niet goed in "begrijpen" (wat gebeurt er nu eigenlijk?).

DriveTok is als een universale schakel tussen de ogen van de auto en de "hersenen" van de toekomst.

  • Voor de auto: Het bespaart enorm veel rekenkracht. In plaats van een berg losse foto's te verwerken, krijgt de AI een strakke, duidelijke samenvatting van de wereld.
  • Voor de toekomst: Dit maakt het mogelijk om echte "wereldmodellen" te bouwen. Denk aan een auto die niet alleen rijdt, maar ook kan praten ("Kijk, daar staat een hond"), kan plannen ("Ik moet hier voorzichtig zijn omdat de weg nat is") en zelfs kan dromen over wat er zou gebeuren als die auto plotseling remt.

Kortom: DriveTok pakt de chaotische wereld van zes camera's, knijpt die samen tot een slimme, 3D-bewuste "samenvatting" (tokens), en zorgt dat de auto niet alleen kijkt, maar echt begrijpt wat er om hem heen gebeurt. Het is de sleutel om zelfrijdende auto's van simpele waarnemers naar slimme denkers te maken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →