Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Chirurg, der eine Operation durchführt. Die Kamera im Operationsraum ist wie die Augen des Roboters. Aber oft passiert etwas, das die Sicht behindert: Die Instrumente (wie Pinzetten oder Scheren) verdecken wichtige Gewebeteile. Für einen Computer ist das ein großes Problem. Wenn er versucht, eine 3D-Karte des Operationsfeldes zu erstellen, entstehen an den verdeckten Stellen „Löcher" oder unscharfe Flecken. Das ist, als würde man versuchen, ein Puzzle zu lösen, bei dem wichtige Teile fehlen.

Die Forscher haben eine neue Methode namens Diff2DGS entwickelt, um dieses Problem zu lösen. Man kann sich das wie einen zweistufigen, magischen Reparaturprozess vorstellen:

Schritt 1: Der „Magische Maler" (Diffusion)

Stellen Sie sich vor, Sie schauen durch ein Fenster, auf dem jemand mit einem dicken Marker die Sicht verdeckt hat. Ein normales Programm würde versuchen, das Fenster zu reinigen, aber oft bleibt es schmutzig oder man sieht nur Ränder.

Diff2DGS nutzt einen „Magischen Maler" (einen KI-Algorithmus, der auf Diffusionsmodellen basiert). Dieser Maler schaut sich nicht nur das einzelne Bild an, sondern betrachtet die ganze Videosequenz wie einen Film. Er weiß: „Ah, in der vorherigen Sekunde war hier eine Leber zu sehen, und in der nächsten Sekunde wird sie auch dort sein."

Anstatt die verdeckten Stellen einfach schwarz zu lassen oder zufällige Muster zu malen, rekonstruiert dieser Maler das Gewebe, das hinter dem Instrument verborgen ist. Er malt das fehlende Gewebe so realistisch wie möglich nach, basierend auf dem, was er in den anderen Momenten des Videos gesehen hat. Er füllt die Lücken im Puzzle mit dem richtigen Bildmaterial auf, bevor überhaupt eine 3D-Karte erstellt wird.

Schritt 2: Der „Tanzende 3D-Drucker" (2D Gaussian Splatting)

Sobald das Bild „sauber" ist (also ohne verdeckte Stellen), kommt der zweite Teil ins Spiel. Frühere Methoden versuchten, die Szene mit riesigen, schweren 3D-Objekten zu bauen (wie riesige Kugeln), was sehr langsam war und oft unscharf wirkte.

Diff2DGS nutzt stattdessen eine Technik, die man sich wie tausende winzige, flache Plättchen vorstellen kann (ähnlich wie Schuppen oder kleine Papierflieger).

Der Trick: Diese Plättchen sind nicht starr. Sie können sich bewegen, dehnen und verformen, genau wie menschliches Gewebe, wenn ein Chirurg daran zieht oder drückt.
Die Lernfähigkeit: Die Forscher haben dem System einen „Lernenden Verformungs-Modell" (LDM) gegeben. Das ist wie ein Tanzlehrer für die Plättchen. Er sagt ihnen: „Wenn sich das Gewebe jetzt nach links bewegt, müsst ihr alle synchron mitgehen und eure Form leicht anpassen." So entsteht eine flüssige, realistische 3D-Bewegung, die nicht zittert oder zerbricht.

Warum ist das so wichtig? (Die Tiefe ist entscheidend)

Ein großes Problem bei früheren Methoden war: Sie sahen auf dem Bildschirm toll aus (helle Farben, scharfe Kanten), aber wenn man die Kamera bewegte, sah die 3D-Struktur falsch aus. Es war wie eine 2D-Fassade: Von vorne sah es aus wie ein Haus, aber von der Seite war es nur eine flache Wand.

Diff2DGS achtet besonders auf die Tiefe (wie weit weg Dinge sind).

Die Analogie: Stellen Sie sich vor, Sie malen ein Bild. Früher haben die Künstler nur darauf geachtet, dass die Farben schön sind. Diff2DGS sorgt aber dafür, dass auch die Perspektive stimmt. Wenn Sie das Bild von der Seite betrachten, sieht es immer noch wie ein echtes, dreidimensionales Objekt aus und nicht wie eine flache Zeichnung.
Das System passt sich während des Trainings automatisch an: Wenn es merkt, dass die Farben gut sind, aber die Tiefe noch wackelig ist, konzentriert es sich stärker auf die korrekte Form.

Das Ergebnis

Dank dieser zwei Schritte – erst das fehlende Gewebe intelligent nachmalen und dann die 3D-Struktur mit beweglichen Plättchen bauen – kann Diff2DGS:

Schneller sein als frühere Methoden (fast in Echtzeit, wichtig für Roboterchirurgen).
Genauer sein, besonders dort, wo Instrumente im Weg waren.
Echte 3D-Strukturen liefern, die auch bei Kamerabewegungen stabil bleiben.

Zusammengefasst: Diff2DGS ist wie ein hochintelligenter Assistent, der die blinden Flecken der Operationskamera ausfüllt und gleichzeitig eine präzise, bewegliche 3D-Karte des Patienten erstellt, damit der Roboter-Chirurg immer genau weiß, wo er ist und was er tut – selbst wenn die Sicht behindert ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Echtzeit-Rekonstruktion deformierbarer chirurgischer Szenen ist entscheidend für die Weiterentwicklung der roboterassistierten Chirurgie, die Navigation des Chirurgen und die Automatisierung. Bestehende Methoden, die auf Neural Radiance Fields (NeRF) oder 3D-Gaussian Splatting (3DGS) basieren, stoßen jedoch an Grenzen:

Okkusionen: Chirurgische Instrumente verdecken Gewebe, was zu Lücken und Artefakten in der Rekonstruktion führt.
Deformation: Chirurgisches Gewebe ist weich und verformt sich dynamisch, was statische Modelle überfordert.
Tiefengenauigkeit: Viele aktuelle Ansätze optimieren primär die Bildqualität (PSNR, SSIM), was jedoch nicht zwingend eine korrekte 3D-Geometrie oder Tiefengenauigkeit garantiert.
Fehlende Ground-Truth: Es gibt kaum öffentliche Datensätze mit chirurgischen Videos, die sowohl starke Gewebedeformationen als auch eine exakte 3D-Tiefen-Ground-Truth (z. B. durch strukturiertes Licht) enthalten.

2. Methodik: Diff2DGS Framework

Das vorgeschlagene Diff2DGS ist ein zweistufiges Framework, das speziell für die Rekonstruktion okkulierter und deformierbarer chirurgischer Szenen entwickelt wurde.

Stufe 1: Diffusionsbasiertes Inpainting (Instrumentenentfernung)

Bevor die 3D-Rekonstruktion beginnt, werden chirurgische Instrumente aus den 2D-Bildern entfernt und das darunterliegende Gewebe rekonstruiert.

Ansatz: Es wird ein Diffusionsmodell (basierend auf Stable Diffusion) verwendet, um die verdeckten Bereiche (Masken) zu füllen.
Zeitliche Konsistenz: Um Halluzinationen zu vermeiden und eine hohe zeitliche Konsistenz in Videos zu gewährleisten, wird ein temporaler Attention-Mechanismus integriert. Dieser nutzt Informationen aus vorherigen und nachfolgenden Frames.
Training: Das Modell wird mit einem maskengewichteten L2-Verlust im latenten Raum trainiert, um sicherzustellen, dass nur die verdeckten Regionen rekonstruiert werden, während die globale Struktur erhalten bleibt.
Inferenz: Zur Beschleunigung wird die DDIM-Sampling-Strategie mit Phased Consistency Models (PCM) verwendet, was nur zwei Denoising-Schritte pro Frame erfordert.

Stufe 2: 2D Gaussian Splatting mit Lernebarem Deformationsmodell (LDM)

Nach dem Inpainting erfolgt die 3D-Rekonstruktion.

2D statt 3D Gaussians: Statt volumetrischer 3D-Gaussians wird 2D Gaussian Splatting (2DGS) verwendet. Dies modelliert die Szene als ebene Gaussians im 3D-Raum, was besser für Oberflächentexturen und Kanten geeignet ist.
Learnable Deformation Model (LDM): Um die dynamische Verformung des Gewebes zu erfassen, wird ein LDM eingeführt. Im Gegensatz zu parametrisch schweren Ansätzen (wie Deform3DGS) nutzt dieses Modell lernbare Gauß-Funktionen für Zentrum, Rotation und Skalierung, die sich über die Zeit ändern. Dies ermöglicht eine effiziente und glatte Simulation der Gewebedeformation.
Adaptive Tiefenverlust-Gewichtung: Um die Geometrie zu verbessern, wird ein adaptiver Verlustmechanismus eingeführt. Das Gewicht des Tiefenverlusts ( $\lambda_{depth}$ ) wird dynamisch während des Trainings angepasst, basierend auf dem Verhältnis von RGB-Fehler zu Tiefenfehler. Dies verhindert, dass der Tiefenverlust in späteren Trainingsphasen dominiert oder vernachlässigt wird, und sorgt für eine bessere Balance zwischen Aussehen und Geometrie.

3. Schlüsselbeiträge

Diff2DGS Framework: Ein neuartiger zweistufiger Ansatz, der chirurgische Instrumente auf 2D-Ebene inpaintet, bevor die 3D-Rekonstruktion stattfindet. Dies reduziert Artefakte in okkludierten Bereichen signifikant.
Erweiterung auf 2DGS mit LDM: Die Anpassung von 2D Gaussian Splatting für deformierbares Gewebe durch ein effizientes, lernbares Deformationsmodell, das eine hohe Rekonstruktionsqualität bei geringerem Rechenaufwand bietet.
Adaptive Tiefenoptimierung: Einführung einer dynamischen Verlustgewichtung, die die geometrische Genauigkeit (Tiefe) über die reine Bildqualität stellt.
Umfassende Evaluation: Die Methode wurde auf drei Datensätzen (EndoNeRF, StereoMIS, SCARED) evaluiert. Besonders auf dem SCARED-Datensatz (mit echter Tiefen-Ground-Truth) wurde die Überlegenheit in der Geometrie nachgewiesen.

4. Ergebnisse

Die Methode wurde gegen State-of-the-Art-Methoden (EndoNeRF, LerPlane, EndoGaussian, Deform3DGS, SurgicalGS) verglichen:

Bildqualität: Diff2DGS erreicht auf dem EndoNeRF-Datensatz 38,02 dB PSNR und auf StereoMIS 34,40 dB PSNR, was die besten Werte aller verglichenen Methoden sind.
Geometrie und Tiefe: Auf dem SCARED-Datensatz (mit echter Tiefen-Ground-Truth) erreicht Diff2DGS einen RMSE von 8,21 mm in verdeckten Bereichen, deutlich besser als Deform3DGS (27,19 mm) und EndoGaussian (17,61 mm).
Echtzeitfähigkeit: Als Gaussian-Splatting-Methode ist die Rendering-Geschwindigkeit um Größenordnungen schneller als NeRF-basierte Ansätze (ca. 232 FPS im Vergleich zu <1 FPS bei NeRF).
Ablationsstudien: Die Entfernung des Inpainting-Moduls oder des LDM führt zu massiven Qualitätsverlusten, was die Notwendigkeit beider Komponenten bestätigt.

5. Bedeutung und Ausblick

Diff2DGS adressiert kritische Lücken in der intraoperativen 3D-Rekonstruktion:

Es löst das Problem der Okkusion durch Instrumente effektiv, was für präzise robotergestützte Eingriffe essenziell ist.
Es zeigt, dass eine Optimierung nur der Bildqualität nicht ausreicht; die explizite Optimierung der Tiefengenauigkeit ist für eine verlässliche 3D-Repräsentation notwendig.
Die Methode bietet einen robusten Kompromiss zwischen Rechenleistung (Echtzeit) und Rekonstruktionsqualität.

Zukünftige Arbeiten sollen die Modellierung der Kamerabewegung integrieren, um die Robustheit in Szenarien mit starken Kamerabewegungen weiter zu erhöhen. Der Code ist anonymisiert verfügbar.

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Schritt 1: Der „Magische Maler" (Diffusion)

Schritt 2: Der „Tanzende 3D-Drucker" (2D Gaussian Splatting)

Warum ist das so wichtig? (Die Tiefe ist entscheidend)

Das Ergebnis

1. Problemstellung

2. Methodik: Diff2DGS Framework

Stufe 1: Diffusionsbasiertes Inpainting (Instrumentenentfernung)

Stufe 2: 2D Gaussian Splatting mit Lernebarem Deformationsmodell (LDM)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration