DROID-SLAM in the Wild

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je met je camera door een drukke stad loopt. Er zijn mensen die rennen, auto's die voorbijrijden, en vogels die vliegen. Voor een slimme computer (een robot of een app) is het heel lastig om te weten: "Waar ben ik nu precies?" en "Hoe ziet de wereld eruit?".

De meeste oude systemen doen alsof de wereld stilstaat. Ze denken: "Alles wat ik zie, is een vast punt op de muur." Maar als er een persoon voorbij loopt, raken ze in de war. Het is alsof je probeert een puzzel te leggen, maar iemand blijft de stukjes verschuiven terwijl je kijkt.

DROID-W is een nieuwe, slimme manier om dit op te lossen. Hier is hoe het werkt, in gewone taal:

1. De "Twijfel-kracht" (Uncertainty)

Stel je voor dat je door een drukke markt loopt. Je ziet een standje met fruit (dat is stil) en een groep kinderen die een bal gooien (dat beweegt).

Oude systemen: Ze proberen de bal vast te houden alsof het een steen is. Ze raken in de war en hun kaart van de wereld wordt rommelig.
DROID-W: Dit systeem heeft een superkracht: twijfel. Het zegt: "Oké, die fruitkraam is vast, maar die bal? Die beweegt. Ik ga die bal negeren voor mijn positie-bepaling."

Het systeem berekent per pixel (per klein puntje op je scherm) hoe "onzeker" het is. Als het ziet dat iets beweegt, zegt het: "Dit puntje is onbetrouwbaar, ik geef het een lage score." Als het iets stilstaands ziet, zegt het: "Dit is betrouwbaar, ik gebruik dit om mijn positie te vinden."

2. Het "Spiegel-voorbeeld"

Stel je voor dat je in een winkel loopt met veel spiegels. Je ziet jezelf, maar ook de mensen achter je.

Een oude camera denkt: "Oh, ik zie een persoon in de spiegel, die staat daar echt!" en probeert daarheen te lopen.
DROID-W kijkt naar de kenmerken van het beeld. Het ziet dat de persoon in de spiegel niet "past" bij de beweging van de rest van de kamer. Het zegt: "Ah, dit is een spiegelbeeld (of een bewegend object), dat is een valstrik. Ik ga dat negeren."

Het systeem gebruikt slimme algoritmen om te kijken of de "stijl" van een beeldpunt overeenkomt met de rest van de wereld. Als het niet klopt, wordt het als "ruis" weggefilterd.

3. De "Dynamische Kaart"

Normaal gesproken maken robots een statische kaart: een 3D-model van de wereld dat niet verandert.
DROID-W maakt een dynamische kaart. Het bouwt een 3D-model van de stad, maar het houdt ook bij welke delen "vloeibaar" zijn (mensen, auto's) en welke delen "vast" zijn (gebouwen, bomen).

Het resultaat? Je krijgt een heel scherp beeld van de stad, zonder dat de mensen die erdoor lopen de kaart verpesten. Het is alsof je een foto maakt van een drukke plek, maar de mensen zijn eruit "gepoetst" zodat je alleen de achtergrond ziet, terwijl je toch weet dat ze er waren.

Waarom is dit belangrijk?

Vroeger faalden robots snel in de echte wereld (de "wilderness"). Ze vielen om als er een hond voorbij rende of als de zon te fel scheen.
DROID-W is als een ervaren wandelaar die gewend is aan chaos. Hij kan:

Sneller lopen (ongeveer 10 beelden per seconde, dus in real-time).
Zelfs in zeer drukke, chaotische omgevingen (zoals een plein tijdens een festival) zijn weg vinden.
Een heel nauwkeurige route tekenen, zelfs als er duizenden mensen om hem heen bewegen.

Kort samengevat:
DROID-W is een slimme camera die leert om te zeggen: "Ik weet niet zeker of dit puntje vastzit of beweegt, dus ik ga het negeren als het beweegt." Hierdoor kan hij zich perfect oriënteren in een wereld die nooit stil staat, zonder in de war te raken door de chaos om hem heen. Het is de eerste keer dat een systeem dit doet met zo'n hoge snelheid en nauwkeurigheid in de echte, onvoorspelbare wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditionele Visual SLAM-systemen (Simultaneous Localization and Mapping) gaan vaak uit van statische omgevingen. In realistische, "in-the-wild" scenario's met dynamische objecten (zoals mensen, voertuigen of bewegende dieren) falen deze systemen vaak.

Bestaande beperkingen: Methoden die dynamiek proberen te hanteren, vertrouwen vaak op vooraf gedefinieerde dynamische priors (zoals objectdetectie of segmentatie) of vereisen een perfecte statische geometrische kaart (zoals bij NeRF of Gaussian Splatting) om onzekerheid te optimaliseren.
Het uitdaging: In complexe, rommelige omgevingen met onbekende dynamische objecten of sterke bewegingen, zijn deze priors onbetrouwbaar. Dit leidt tot trackingfouten, drift in de cameratrajectorie en onnauwkeurige 3D-reconstructies. Bestaande onzekerheidsgebaseerde methoden zijn vaak te sterk gekoppeld aan de geometrische representatie, wat prestaties verslechtert wanneer de mapping zelf al onstabiel is.

Methodologie: DROID-W

Het paper introduceert DROID-W, een robuust, real-time RGB SLAM-systeem dat dynamische omgevingen aankan door een differentieerbare onzekerheidsbewuste Bundel-Adjustment (Uncertainty-aware Bundle Adjustment - UBA) te integreren. Het systeem bouwt voort op DROID-SLAM maar voegt een nieuw mechanisme toe om per-pixel onzekerheid te schatten zonder afhankelijk te zijn van vooraf gedefinieerde bewegingsmodellen.

Kerncomponenten:

Onzekerheidsbewuste Bundel-Adjustment (UBA):
- In plaats van alle pixels gelijk te wegen, introduceert het systeem een per-pixel dynamische onzekerheid ( $u_t$ ).
- Deze onzekerheid fungeert als een weegfactor in de Mahalanobis-afstand tijdens de optimalisatie. Pixels met hoge onzekerheid (dynamische objecten) krijgen een lagere weging, waardoor hun negatieve invloed op de camerapose en diepteberekening wordt geminimaliseerd.
- De optimalisatie gebeurt via een verweven strategie: er wordt afgewisseld tussen het verfijnen van pose/depth en het optimaliseren van de onzekerheid. Dit voorkomt dat het probleem te complex wordt om in één keer op te lossen.
Onzekerheidsoptimalisatie via Visuele Feature-Consistentie:
- In tegenstelling tot eerdere werken die reprojectie-fouten gebruiken (die onbetrouwbaar zijn bij grote bewegingen), schat DROID-W onzekerheid op basis van multi-view visuele feature-consistentie.
- Het systeem gebruikt DINOv2-features (via een verfijnd model FiT3D) om de visuele overeenkomst tussen frames te meten.
- Als een pixel in meerdere views sterk verschilt in zijn features (wat wijst op beweging of inconsistentie), wordt de onzekerheid voor die pixel verhoogd.
- Een lokale affiene mapping (geleerd via een netwerk) wordt gebruikt om van features naar onzekerheid te gaan, wat zorgt voor ruimtelijke consistentie en overfitting voorkomt.
Systeemarchitectuur:
- Het systeem start met een initiatie-fase waarbij monokulaire diepte (voorspeld door Metric3D) wordt gebruikt als regularisatie om de initiële diepteschattingen te verbeteren.
- Het werkt in een sliding window voor lokale bundel-adjusment en voert later een globale bundel-adjusment uit over alle sleutelframes.
- Tijdens de globale optimalisatie worden de dynamische onzekerheidsparameters "bevroren" om lokale regularisatie te behouden zonder globale instabiliteit.

Belangrijkste Bijdragen

Nieuwe Onzekerheidsbenadering: DROID-W schat onzekerheid puur op basis van visuele feature-inconsistentie tussen views, zonder afhankelijk te zijn van objectsegmentatie of een perfecte statische kaart. Dit maakt het robuust voor onbekende dynamische objecten.
DROID-W Dataset: De auteurs introduceren een nieuwe dataset met 7 outdoor-sequenties (Downtown 1-7) opgenomen met een LiDAR en RGB-camera, inclusief grondwaarheid (RTK of FAST-LIVO2). Daarnaast zijn er 6 uitdagende YouTube-video's gebruikt voor evaluatie in echt "in-the-wild" scenario's.
Real-time Prestaties: Het systeem draait met ongeveer 10 FPS op een enkele GPU, wat het geschikt maakt voor real-time toepassingen, terwijl het state-of-the-art resultaten behaalt.
Open Source: Code en datasets zijn beschikbaar gesteld voor de gemeenschap.

Resultaten

De auteurs evalueren DROID-W op meerdere benchmarks, waaronder Bonn RGB-D, TUM RGB-D, DyCheck, de nieuwe DROID-W dataset en YouTube-video's.

Tracking Nauwkeurigheid: DROID-W behaalt consistent de beste of tweede beste resultaten in Absolute Trajectorie Fout (ATE) op alle datasets. Het overtreft bestaande dynamische SLAM-methoden (zoals WildGS-SLAM, DynaSLAM, UP-SLAM) en feed-forward methoden (zoals MonST3R, TTT3R).
- Op de Bonn dataset is de fout 2.30 cm (vs. 2.52 cm voor de tweede beste).
- Op de DROID-W dataset (uitdagende outdoor scenario's) is de fout 0.23 m, wat aanzienlijk beter is dan concurrenten.
Robuustheid: Waar methoden gebaseerd op Gaussian Splatting (zoals WildGS-SLAM) vaak falen in complexe, dynamische omgevingen door onstabiele mapping, blijft DROID-W stabiel dankzij de onafhankelijke onzekerheidsschatting.
Reconstructie Kwaliteit: De 3D-puntenwolken die door DROID-W worden gegenereerd, zijn geometrisch nauwkeuriger en minder "ruis" bevattend dan die van DROID-SLAM of WildGS-SLAM in dynamische scènes. Dynamische objecten worden effectief onderdrukt, terwijl de statische achtergrond behouden blijft.
Snelheid: Het systeem is ongeveer 40x sneller dan WildGS-SLAM en behaalt real-time snelheid (~10 FPS), terwijl het slechts iets trager is dan het statische DROID-SLAM door de extra features en diepteberekening.

Betekenis en Impact

DROID-W vertegenwoordigt een belangrijke stap voorwaarts in robuuste SLAM voor real-world toepassingen.

Overbrug van de "In-the-Wild" Kloof: Veel bestaande methoden werken goed in gecontroleerde labs of statische omgevingen, maar falen in de echte wereld. DROID-W bewijst dat het mogelijk is om nauwkeurige tracking en mapping te behouden in omgevingen met willekeurige, onvoorspelbare beweging.
Onafhankelijkheid van Priors: Door niet afhankelijk te zijn van objectdetectie of semantische segmentatie, is het systeem veelzijdiger en toepasbaar op een bredere scala aan scenario's waar objectklassen onbekend zijn.
Praktische Toepasbaarheid: De real-time snelheid en de open-source beschikbaarheid maken het systeem direct inzetbaar voor robots, autonome voertuigen en augmented reality-applicaties in dynamische omgevingen.

Kortom, DROID-W lost het fundamentele probleem op van SLAM in dynamische omgevingen door een slimme, datagedreven onzekerheidsschatting te koppelen aan een differentieerbare optimalisatie, waardoor het de nieuwe state-of-the-art is voor monokulaire dynamische SLAM.