Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

本文提出了 Diff2DGS 框架,通过结合基于扩散模型的视频修复技术与带有可学习变形模型的 2D 高斯泼溅(2DGS)方法,实现了手术场景中遮挡区域的高保真、实时且几何准确的 3D 重建。

Tianyi Song, Danail Stoyanov, Evangelos Mazomenos, Francisco Vasconcelos

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Diff2DGS 的新技术,它的目标是让手术机器人“看”得更清楚、更真实,特别是在手术过程中被器械挡住的地方。

为了让你更容易理解,我们可以把整个手术场景想象成一场正在进行的魔术表演,而我们的目标就是还原魔术师的真实动作和道具

1. 核心问题:被挡住的“魔术”

在微创手术中,医生通过内窥镜(就像一个小摄像头)看病人身体内部。但是,手术器械(像钳子、剪刀)经常会伸进画面里,把重要的组织(比如血管、肌肉)挡住。

  • 以前的做法:就像看魔术时,如果魔术师的手挡住了道具,以前的重建技术只能看到“手”和“手后面模糊的影子”,或者干脆把被挡住的部分涂黑。这导致重建出来的 3D 模型在那些被挡住的地方全是漏洞,而且深度(离镜头有多远)也不准。
  • 后果:如果机器人想根据这个 3D 模型自动操作,它可能会因为“看错”了距离而撞到不该撞的地方。

2. 我们的解决方案:Diff2DGS(两步走策略)

Diff2DGS 就像是一个拥有“读心术”和“透视眼”的超级助手,它分两步来解决问题:

第一步:AI 画家“脑补”被挡住的部分(视频修复)

想象一下,你有一张被撕掉了一角的照片,或者一段视频里有人挡住了关键物体。

  • 以前的方法:只能把挡住的地方留白。
  • Diff2DGS 的做法:它使用了一种叫扩散模型(Diffusion Model)的 AI 技术。这就像是一个经验丰富的老画家
    • 老画家看着视频的前后几帧(比如器械移开前一秒和后一秒的样子),结合他对人体组织的了解,“脑补”出被器械挡住的组织原本长什么样
    • 它不仅能补全画面,还能保证补出来的部分和周围的时间、空间是连贯的,不会显得突兀(比如不会突然变出一只兔子)。
    • 结果:原本被器械挡住的“盲区”,现在变成了一张清晰、完整的“组织照片”。

第二步:用“扁平的纸片”搭建 3D 世界(2D 高斯泼溅)

有了清晰的画面,接下来要把它变成 3D 模型。

  • 以前的做法:像用无数个小球(3D 高斯)去堆砌物体。但在手术这种软组织(像果冻一样会变形)的场景下,小球很难完美贴合,而且计算量巨大,容易把表面弄得坑坑洼洼。
  • Diff2DGS 的做法:它改用2D 高斯泼溅(2DGS)。
    • 想象一下,不是用小球堆,而是用无数张微小的、半透明的彩色纸片(像剪纸一样)在 3D 空间里层层叠叠。
    • 这些纸片非常灵活,可以像皮肤一样拉伸、弯曲。
    • 为了应对手术中组织被拉扯变形的情况,他们还加了一个**“可学习的变形模型”(LDM)。这就像给这些纸片装上了智能弹簧**,当器械拉扯组织时,纸片能自动跟着变形,保持形状的真实感。

第三步:给模型装上“深度尺”(自适应深度损失)

很多技术只追求“看起来像照片”(颜色好看),但忽略了“看起来有多深”(距离准不准)。

  • Diff2DGS 的改进:它在训练过程中,不仅盯着颜色对不对,还专门盯着深度(距离)准不准。
  • 它使用了一种**“自适应权重”**策略。这就好比老师教学生:刚开始学生连颜色都画不好,老师就重点抓颜色;等颜色画好了,老师就重点抓透视和距离。这样训练出来的模型,既好看,又精准。

3. 为什么这很重要?(比喻总结)

  • 以前的重建:就像你戴着一副有雾且缺角的眼镜看手术。虽然能看到大概,但被器械挡住的地方是黑的,而且你很难判断那个伤口离镜头是 1 厘米还是 5 厘米。机器人如果按这个眼镜的指示去操作,很容易出错。
  • Diff2DGS 的重建:就像给机器人换上了一副超高清的、能自动补全画面的智能眼镜
    • 即使器械挡住了,眼镜也能“算”出后面是什么。
    • 即使组织被拉扯变形,眼镜也能实时调整,告诉你真实的距离。
    • 最重要的是,它算得非常快,快到可以实时指导机器人做手术。

4. 实验结果

作者在几个公开的手术数据集上测试了这项技术:

  • 画质:比目前最先进的技术更清晰,尤其是在被挡住的地方,几乎没有瑕疵。
  • 深度:重建出来的 3D 模型,其深度(距离感)非常准确,这对于机器人安全操作至关重要。
  • 速度:虽然功能强大,但渲染速度依然很快,适合实时手术。

一句话总结
Diff2DGS 就像是一个懂魔术的 AI 助手,它不仅能脑补出被手术器械挡住的组织画面,还能用灵活的纸片快速搭建出一个既逼真又精准的 3D 手术现场,让手术机器人看得更清、动得更准。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →