NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een camera vasthoudt in een levend, ademend lichaam. Je probeert een kaart te maken van wat je ziet, maar er is een groot probleem: de "muur" waar je naar kijkt, is eigenlijk een zachte, beweeglijke maag of darm. Hij rekt, krimpt, beweegt mee met de ademhaling en wordt zelfs door chirurgische instrumenten verplaatst.

Voor een computer is dit een nachtmerrie. Normaal gesproken denkt een camera: "Als dit puntje op het scherm beweegt, dan heb ik mezelf bewogen." Maar in een lichaam beweegt het puntje misschien omdat de maag beweegt, niet omdat jij de camera hebt bewogen. Het is alsof je probeert te navigeren in een kamer waar de muren zelf ook rondlopen.

Deze paper introduceert NRGS-SLAM, een slimme nieuwe manier om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Gekke Spiegel"

Stel je voor dat je in een kamer staat met spiegels die continu vervormen. Als je een stap zet, zie je je reflectie verschuiven. Maar als de muur ook nog eens krimpt, weet je niet of jij hebt bewogen of de muur. Dit noemen onderzoekers "koppelingsambiguïteit". Bestaande systemen raken hierdoor in de war, maken fouten in hun kaart en "drijven" weg (ze vergeten waar ze waren).

2. De Oplossing: Een "Slimme Lijm" (3D Gaussian Splatting)

De auteurs gebruiken een nieuwe techniek genaamd 3D Gaussian Splatting.

De Analogie: In plaats van een stugge, statische 3D-kaart te maken (zoals een Lego-bouwwerk), maken ze een kaart van miljoenen kleine, zwevende "deeltjes" of "wolkjes" (Gaussians).
De Innovatie: Elk van deze deeltjes krijgt een slimme eigenschap: een "vervormingskans".
- Sommige deeltjes zijn als stijve stenen (bijvoorbeeld een bot of een stevige plek in het weefsel). Deze veranderen bijna nooit.
- Andere deeltjes zijn als zachte rubberballen (zacht weefsel). Deze kunnen rekken en vervormen.

Het systeem leert zelf welke deeltjes stenen zijn en welke ballen, zonder dat iemand ze dat van tevoren moet vertellen.

3. Hoe het Werkt: De Twee Sporen

Het systeem heeft twee hoofdtaken die het slim combineert:

A. De Navigatie (Waar ben ik?)
Wanneer de camera beweegt, kijkt het systeem eerst naar de "stijve stenen" in zijn kaart.

Analogie: Stel je voor dat je in een storm loopt. Je kijkt niet naar de bladeren die door de wind worden weggeblazen om te weten welke kant je op gaat. Je kijkt naar de bomen die vastzitten.
Het systeem negeert de zachte, vervormende delen en gebruikt alleen de stabiele delen om te berekenen hoe de camera beweegt. Dit voorkomt dat de navigatie in de war raakt.

B. De Kaart (Wat zie ik?)
Zodra het weet waar het is, kijkt het naar de "rubberen ballen".

Het past de vorm van deze ballen aan om de vervorming van het weefsel na te bootsen.
Het resultaat is een foto-realisticke, 3D-weergave van het binnenste van het lichaam die meebeweegt, net als echt weefsel.

4. De "Zelflerende" Trainer

Hoe weet het systeem welke delen stijf zijn en welke zacht, als er geen labels zijn?

De Analogie: Het systeem doet een gok. "Wat als dit deel stijf is?" en "Wat als dit deel zacht is?".
Het bekijkt vervolgens welke gok de foto het beste laat lijken op wat de camera ziet. Als de "zachte" gok beter werkt, leert het systeem: "Ah, dit is zacht!" en past het zijn interne regels aan. Dit noemen ze een "Bayesian self-supervision strategy". Het is alsof het systeem zichzelf traint door te kijken wat er werkt.

5. Waarom is dit belangrijk?

Vroeger waren kaarten van binnen in het lichaam vaak wazig, onnauwkeurig of leken ze op een statische foto van een levend organisme.

Beter voor chirurgen: Het geeft chirurgen een veel scherper en accurater beeld van waar ze zijn en hoe het weefsel beweegt.
Minder fouten: Het systeem "drijft" niet meer weg, zelfs niet als het weefsel extreem beweegt.
Realisme: De reconstructie ziet eruit als een echte video, niet als een ruwe 3D-schets.

Samenvattend

NRGS-SLAM is als een slimme navigator die in een dansende kamer kan lopen. Hij houdt zijn evenwicht door zich vast te houden aan de onbeweeglijke muren (de stijwe delen), terwijl hij tegelijkertijd de dansende muren (het zachte weefsel) nauwkeurig in kaart brengt en tekent. Hierdoor kan hij precies zeggen waar hij is, terwijl hij een prachtige, levendige kaart tekent van een omgeving die continu verandert.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Visuele gelijktijdige lokalisatie en mapping (V-SLAM) is essentieel voor autonome navigatie, maar traditionele systemen gaan uit van een stijfheidsaanneming (rigidity assumption). In endoscopische chirurgische scenario's is deze aanname niet geldig omdat organen en zacht weefsel voortdurend vervormen door fysiologische bewegingen (zoals ademhaling en hartslag) of interactie met chirurgische instrumenten.

Dit creëert een fundamenteel koppelingsprobleem (coupling ambiguity): pixelveranderingen in de beelden kunnen worden veroorzaakt door de beweging van de camera (ego-motion), de intrinsieke vervorming van het weefsel, of een combinatie van beide. Bestaande methoden voor niet-stijve SLAM (non-rigid SLAM) hebben moeite om deze factoren effectief te ontkoppelen, wat leidt tot tracking-drift. Bovendien vertrouwen veel bestaande methoden op spaarzame representaties (zoals meshes of puntenwolken) die geen fotorealistische reconstructie van hoge kwaliteit toelaten.

Methodologie: NRGS-SLAM

De auteurs stellen NRGS-SLAM voor, een monocular niet-stijve SLAM-systeem gebaseerd op 3D Gaussian Splatting (3DGS). Het systeem bestaat uit vier hoofdcomponenten:

Deformatie-bewuste 3D Gaussian Kaart (Deformation-Aware 3D Gaussian Map):
- In plaats van een statische scene, wordt de scene gerepresenteerd in een canonieke ruimte met 3D-Gaussian-primitieven.
- Kerninnovatie: Elke Gaussian-primitief wordt aangevuld met een leerbare deformatiekans (deformation probability, $w_d$ ). Deze waarde varieert van 0 (stijf/rigid) tot 1 (volledig vervormbaar/non-rigid).
- Omdat er geen ground-truth labels zijn voor weefselstijfheid, wordt een Bayesiaanse zelftoezichtstrategie (Bayesian self-supervision) gebruikt. Dit schat de posterieure kans op vervorming op basis van fotometrische inconsistenties tussen een stijf en een vervormbaar hypothese, en fungeert als een pseudo-ground-truth signaal.
- Dit resulteert in een dichte, pixel-gealigneerde kaart van vervormingszekerheid die gebruikt wordt om bij de optimalisatie bij te dragen aan de juiste weging van pixels.
Vervormbare Tracking (Deformable Tracking):
- Coarse-to-Fine Pos Schatting: De camera-pose wordt geschat in twee fasen. Eerst wordt een initiële pose berekend via een PnP-probleem waarbij alleen correspondenties in stijge gebieden (lage deformatiekans) worden gebruikt. Vervolgens wordt de pose verfijnd door fotometrische en geometrische fouten te minimaliseren, waarbij pixels in vervormde gebieden minder zwaar wegen.
- Per-frame Deformatie Update: Na de pose-schatting wordt het vervormingsveld bijgewerkt om de momentane scene-veranderingen vast te leggen. Dit gebeurt efficiënt door alleen residuen te optimaliseren voor Gaussian-primitieven met een hoge deformatiekans.
Vervormbare Mapping (Deformable Mapping):
- De kaart wordt geleidelijk uitgebreid met nieuwe Gaussian-primitieven wanneer de camera nieuwe gebieden verkent.
- Een globale bundel-aanpassing (bundle adjustment) wordt uitgevoerd om poses en map-parameters gezamenlijk te verfijnen.
- Dynamisch Beheer van het Vervormingsveld: Om de rekenkosten te beheersen, wordt het aantal tijdsbasisfuncties (Gaussian basis functions) voor elke primitief adaptief aangepast (verdichting, samenvoegen, snoeien) op basis van de complexiteit van de vervorming.
Meetingsvoorverwerking en Geometrische Priors:
- Om het inherent slecht gestelde (ill-posed) probleem van monocular non-rigid SLAM op te lossen, worden geometrische priors gehaald uit grote foundation-modellen (zoals dieptekaarten en 2D/3D trajecten).
- Een unificatie van robuuste geometrische verliezen integreert deze priors, waardoor het systeem gebruik maakt van geometrische gidsen terwijl het robuust blijft tegen ruis en domeinverschillen.

Belangrijkste Bijdragen

Deformatie-bewuste 3DGS: Een nieuwe scene-representatie die per-primitief een leerbare deformatiekans introduceert, waardoor camera-beweging en scene-vervorming expliciet worden ontkoppeld.
Zelftoezichtstrategie: Een Bayesiaanse methode om deformatiekansen te leren zonder externe annotaties, gebaseerd op het vergelijken van stijf- en vervormbare hypotheses.
Robuuste Tracking en Mapping: Een modulaire architectuur die eerst betrouwbare poses schat in stijge gebieden en vervolgens efficiënt vervormingen update, ondersteund door dynamisch beheer van de modelcomplexiteit.
Integratie van Geometrische Priors: Een robuust verliesfunctie die externe geometrische priors combineert om de stabiliteit van de oplossing te vergroten.

Resultaten

Het systeem is geëvalueerd op drie publieke endoscopische datasets: StereoMIS, Hamlyn en C3VDv2.

Locatie-nauwkeurigheid: NRGS-SLAM presteert aanzienlijk beter dan state-of-the-art methoden (zoals DefSLAM, NR-SLAM, MonoGS, EndoGSLAM).
- Op de StereoMIS-dataset werd een reductie van de RMSE (Root Mean Square Error) van ongeveer 50% bereikt ten opzichte van de tweede beste methode.
- Het systeem toont minder drift en slaagt erin om lange sequenties te tracken waar andere methoden falen.
Reconstructiekwaliteit: De fotorealistische reconstructies tonen superieure kwaliteit met hogere PSNR en SSIM waarden en lagere LPIPS waarden. In tegenstelling tot stijve methoden die artefacten vertonen bij vervorming, behoudt NRGS-SLAM fijne textuurdetails en geometrische consistentie.
Ablatie-studies: Deze bevestigen dat elke component (geometrische priors, deformatie-gewichting, zelftoezicht op deformatiekans) essentieel is voor de prestaties. Het verwijderen van de deformatie-bewuste weging leidt bijvoorbeeld tot een drastische toename van de tracking-fout.

Betekenis en Toekomstperspectief

NRGS-SLAM is een belangrijke doorbraak in de endoscopische beeldverwerking omdat het voor het eerst een monocular systeem biedt dat zowel nauwkeurige lokalisatie als fotorealistische, niet-stijve reconstructie mogelijk maakt zonder externe dieptemetingen of stijfheidsannotaties.

Klinische Toepassingen: Hoewel het systeem momenteel niet in real-time werkt (ongeveer 0.9 FPS), is het snel genoeg voor post-operatieve analyse en chirurgische training. Het biedt potentie voor pre-operatieve tot intra-operatieve registratie, waarbij de geïdentificeerde stijge gebieden dienen als betrouwbare referentiepunten.
Toekomstige Richtingen: De auteurs wijzen op de noodzaak om de rekenkosten te verlagen (bijvoorbeeld door vervorming op oppervlak-niveau in plaats van per primitief te modelleren) en om multi-sensor fusie (bijv. met FBG-sensoren) te onderzoeken om de robuustheid verder te verbeteren.

Kortom, NRGS-SLAM lost het fundamentele koppelingsprobleem in endoscopische SLAM op door een slimme combinatie van 3D Gaussian Splatting en een leerbare deformatie-mechanisme, wat leidt tot superieure prestaties in zowel tracking als reconstructie.

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

1. Het Probleem: De "Gekke Spiegel"

2. De Oplossing: Een "Slimme Lijm" (3D Gaussian Splatting)

3. Hoe het Werkt: De Twee Sporen

4. De "Zelflerende" Trainer

5. Waarom is dit belangrijk?

Samenvattend

Probleemstelling

Methodologie: NRGS-SLAM

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration