NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NRGS-SLAM 的新技术，专门用于解决内窥镜手术中的“导航”和“地图重建”难题。

为了让你轻松理解，我们可以把内窥镜手术想象成在一个不断变形的果冻迷宫里开车。

1. 核心难题：果冻迷宫的陷阱

传统的导航系统（SLAM）就像是在坚硬的岩石迷宫里开车。它们假设墙壁是固定的，只要车轮转动，位置就能算准。

但在人体内部（比如做肠镜或胃镜），情况完全不同：

软体组织像果冻：肠道、胃壁不是硬邦邦的石头，而是像果冻一样，随着呼吸、心跳或医生的操作不断变形、蠕动。
分不清是谁在动：当你看到画面里的纹理移动了，你很难判断是摄像头自己动了（车在开），还是果冻自己变形了（墙在动），或者是两者都在动。
后果：传统的导航系统会被这种变形搞晕，导致定位漂移（以为车在走，其实车停了，或者以为车停了，其实车在倒），重建出来的地图也是模糊、扭曲的。

2. 解决方案：NRGS-SLAM 的“智能果冻地图”

为了解决这个问题，作者发明了一套新系统，核心思想可以比喻为：给果冻里的每一小块都贴上“变形身份证”。

A. 3D 高斯泼溅（3D Gaussian Splatting）：用“光点”代替“网格”

以前的地图是用“网格”或“点云”拼凑的，像乐高积木，变形时容易断裂或模糊。
NRGS-SLAM 使用了一种叫3D 高斯泼溅的新技术。想象一下，它不是用积木搭房子，而是用无数发光的、半透明的“光点”（高斯球）来填充空间。

优点：这些光点可以无限细腻地融合，重建出来的画面像照片一样真实，而且计算速度很快。

B. 变形感知（Deformation-Aware）：给光点装上“变形概率”

这是最关键的创新。系统给每一个“光点”都分配了一个**“变形概率值”**（0 到 1 之间）：

0（蓝色）：代表这个光点所在的组织很硬，几乎不动（比如骨骼附近或稳定的组织）。
1（红色）：代表这个光点所在的组织很软，正在剧烈变形（比如被挤压的肠壁）。

这就像给果冻里的每一块都贴了标签：“这块是硬的，别动它；那块是软的，可以随便扭。”

C. 贝叶斯自监督：不需要老师教

通常，要教会电脑识别哪里软哪里硬，需要人工标注（老师告诉电脑）。但在手术中，没人能实时标注哪里在变形。
NRGS-SLAM 采用了一种**“自我学习”**的策略（贝叶斯自监督）：

它通过观察画面的变化，自己推测：“如果我把这块当成硬的，画面会糊掉；如果当成软的，画面就清晰了。”
于是，它自己学会了给每个光点贴上正确的“变形标签”，不需要外部老师。

3. 工作流程：如何开车和画地图？

整个系统分为两个主要步骤，就像司机和绘图员的配合：

第一步：智能导航（Deformable Tracking）

策略：当摄像头移动时，系统会优先信任那些“硬”的光点（变形概率低的区域）来计算位置。
比喻：就像在果冻迷宫里开车，司机只盯着那些不动的岩石（硬组织）来定位，而忽略那些晃动的果冻（软组织）。这样，无论果冻怎么扭，司机的方向感都不会乱。
结果：摄像头的运动轨迹非常精准，不会漂移。

第二步：动态绘图（Deformable Mapping）

策略：在确定了摄像头位置后，系统再专门去计算那些“软”的光点是如何变形的。
比喻：司机定好位置后，绘图员专门负责把那些晃动的果冻画下来，记录它们现在的形状。
结果：最终生成的地图不仅位置准，而且能完美还原肠道蠕动、变形的真实样子，画面清晰如照片。

4. 为什么它很厉害？（实验结果）

作者在多个公开的内窥镜数据集上进行了测试，结果非常惊人：

定位更准：相比现有的最先进方法，摄像头的定位误差降低了50%。这意味着在手术中，医生看到的导航位置更可靠。
画面更美：重建出来的 3D 图像非常逼真，没有模糊和扭曲，甚至能看清组织表面的细微纹理。
适应性强：即使面对像 C3VDv2 数据集那样极度扭曲、被气球挤压的肠道，它也能稳住，而其他方法早就“迷路”或“崩溃”了。

总结

NRGS-SLAM 就像是一个拥有“透视眼”的超级导航员。
它不再把人体内部看作僵硬的迷宫，而是承认并理解组织的“柔软”和“变形”。通过给每一个微小的组织点贴上“软硬标签”，它成功地把摄像头的运动和组织的变形分离开来。

这对未来的意义：
虽然目前速度还没达到“实时”（还没快到像看直播一样），但它已经足够用于手术后的复盘分析或医生培训。未来，如果速度能再提升，它将帮助外科医生在复杂的手术中拥有“上帝视角”，看清变形的组织，从而更安全、更精准地进行手术。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting 的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
视觉同步定位与建图 (V-SLAM) 是自主导航的核心能力。然而，传统的 V-SLAM 基于环境刚性假设，这在腹腔镜或内窥镜手术场景中并不成立。

核心挑战：

非刚性形变： 内窥镜场景中的软组织和器官会因呼吸、心跳或手术器械交互而发生持续的非刚性形变。
耦合模糊性 (Coupling Ambiguity)： 单目相机观察到的像素变化可能源于相机自身的运动（Ego-motion）、场景的内在形变，或两者的混合。这种模糊性导致传统的刚性 SLAM 难以区分相机运动与组织形变，从而产生严重的跟踪漂移和重建质量下降。
现有方法的局限：
- 现有的非刚性 SLAM 多基于稀疏点云、网格或 Surfels，缺乏高保真重建能力。
- 缺乏有效的解耦机制，难以在联合优化中区分相机运动和场景形变。
- 基于神经辐射场 (NeRF) 的方法计算开销大，难以实时；而基于 3D 高斯泼溅 (3DGS) 的方法大多假设场景是静态的，或未解决内窥镜特有的刚性/非刚性区域不可语义分离的问题。

2. 方法论 (Methodology)

作者提出了 NRGS-SLAM，一个基于 3D 高斯泼溅 (3DGS) 的单目非刚性 SLAM 系统。其核心在于引入“形变感知”机制，将相机跟踪与场景形变解耦。系统主要包含四个模块：

A. 形变感知的 3D 高斯地图 (Deformation-Aware 3D Gaussian Map)

这是系统的核心表示。

可学习的形变概率 ( $w_d$ )： 每个 3D 高斯原语除了位置、旋转、缩放等属性外，还增加了一个可学习的标量属性——形变概率 ( $w_d \in [0, 1]$ $w_{d} \in [0, 1]$ )。
- $w_d \to 0$ ：表示刚性区域（如骨骼或稳定组织）。
- $w_d \to 1$ ：表示高形变区域（如软组织）。
贝叶斯自监督策略： 由于缺乏真实的形变标签，系统通过贝叶斯框架，利用多视图观测的光度不一致性来推断后验形变概率，作为伪真值（Pseudo-ground-truth）来监督 $w_d$ 的学习。
时间形变场： 使用 1D 高斯基函数 来参数化时间域上的形变。形变量由 $w_d$ 进行软门控调制：刚性区域 ( $w_d \approx 0$ ) 的形变被抑制，而柔性区域 ( $w_d \approx 1$ ) 允许随时间动态变化。

B. 形变感知跟踪模块 (Deformable Tracking)

采用由粗到细 (Coarse-to-Fine) 的策略，优先利用低形变区域进行相机姿态估计。

粗姿态估计： 利用形变概率图过滤掉高形变区域的特征点，仅使用刚性区域的 3D-2D 对应关系求解 PnP 问题，获得初始相机姿态。
姿态细化： 在优化相机姿态时，引入形变置信度权重。对高形变概率区域的像素降低权重，使优化过程主要受刚性区域约束，从而解耦相机运动与场景形变。
逐帧形变更新： 在姿态确定后，仅对高形变概率的高斯原语进行高效的残差优化，更新其时间基函数的权重，以捕捉当前的组织形变。

C. 形变建图模块 (Deformable Mapping)

地图扩展： 当检测到新区域或大形变时，向高斯地图中插入新的高斯原语，并初始化其形变概率和基函数。
全局形变束调整 (Global Deformable Bundle Adjustment)： 在滑动窗口内联合优化相机姿态、高斯原语参数和形变场。
动态形变场管理： 根据形变复杂度自适应地增加、合并、剪枝或冻结高斯原语的时间基函数，平衡表示能力与计算效率。

D. 测量预处理与几何损失 (Measurement Preprocessing & Geometric Loss)

几何先验： 利用大规模基础模型（如 SpatialTrackerV2）提取深度图和稀疏轨迹，作为几何先验。
统一鲁棒几何损失： 将几何先验整合到优化框架中，采用迭代重加权最小二乘 (IRLS) 和退火策略，以减轻单目非刚性 SLAM 固有的病态问题，同时抵抗预测噪声。

3. 主要贡献 (Key Contributions)

形变感知的 3D 高斯地图： 首次将可学习的形变概率引入 3DGS，显式地解耦了相机运动与场景形变，并通过贝叶斯自监督策略实现了无标签训练。
形变感知跟踪模块： 设计了由粗到细的跟踪策略，利用形变概率图优先利用刚性区域进行姿态估计，显著提高了跟踪的鲁棒性。
形变建图模块： 提出了包含渐进式地图扩展、自适应形变场管理和全局束调整的完整流程，实现了高保真重建与计算效率的平衡。
统一鲁棒几何损失： 结合外部几何先验，有效缓解了单目非刚性 SLAM 的病态性，提升了系统在复杂内窥镜环境下的稳定性。

4. 实验结果 (Results)

作者在三个公开的内窥镜数据集（StereoMIS, Hamlyn, C3VDv2）上进行了广泛实验，对比了传统非刚性 SLAM、通用 3DGS SLAM 及内窥镜专用方法。

定位精度 (Localization Accuracy)：
- 在 StereoMIS 数据集上，NRGS-SLAM 的轨迹误差 (ATE RMSE) 比次优方法降低了约 50%。
- 在 C3VDv2 数据集（具有大尺度几何形变）上，NRGS-SLAM 取得了最佳的平均 RMSE (8.13 mm)，显著优于其他方法。
- 许多基于刚性假设或静态场景的方法（如 EndoGSLAM, MonoGS）在长序列或大形变下出现跟踪失败。
重建质量 (Reconstruction Quality)：
- 在 PSNR、SSIM 和 LPIPS 指标上，NRGS-SLAM 在所有数据集上均取得最优或接近最优的成绩。
- 定性结果显示，NRGS-SLAM 能够生成照片级真实感的重建结果，有效保留了纹理细节，且无明显的几何扭曲或模糊，而其他方法在形变剧烈时会出现严重的伪影。
消融实验：
- 移除几何先验导致误差激增（约 87%），证明了先验的重要性。
- 移除形变概率估计模块导致误差增加约 61%，验证了形变解耦机制的有效性。
- 动态形变场管理在保证精度的同时，有效控制了参数数量，维持了系统稳定性。

5. 意义与局限性 (Significance & Limitations)

意义：

理论突破： 解决了单目内窥镜 SLAM 中相机运动与组织形变的耦合模糊问题，为软体机器人视觉导航提供了新的范式。
应用价值： 实现了高保真的 3D 重建和准确的定位，对于术前规划、术中导航、手术机器人辅助以及术后分析具有重要价值。
技术融合： 成功将 3DGS 的高效渲染能力与复杂的非刚性形变建模相结合，填补了该领域的空白。

局限性：

实时性： 当前系统尚未达到实时性能（约 0.8-0.9 FPS），主要受限于为每个高斯原语单独建模形变参数带来的高维优化问题。
形变概率估计开销： 贝叶斯自监督模块需要额外的渲染和计算，增加了推理时间。
视觉退化： 在强反光、光照变化剧烈或纹理缺失的内窥镜图像中，仅靠视觉线索推断形变仍具挑战性。

未来方向：

探索表面级而非原语级的形变建模以降低计算量。
融合多模态传感器（如 FBG 光纤传感器）以辅助区分刚性与非刚性区域。
利用更强的正则化策略和基础模型提升鲁棒性。

总结： NRGS-SLAM 通过引入形变感知机制和 3DGS 技术，显著提升了内窥镜非刚性 SLAM 的精度和重建质量，是迈向临床辅助应用的重要一步。