DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DiffTrans 的新技术，它的核心任务是：给透明的物体（比如玻璃杯、水晶球、树脂工艺品）“拍个照”，然后利用这些照片，在电脑里完美地重建出它们的形状和内部材质。

这听起来很简单，但实际上非常难。为了让你轻松理解，我们可以用几个生动的比喻来拆解这篇论文。

1. 为什么这是个难题？（透明的“捣乱”）

想象一下，你面前放着一个透明的玻璃花瓶。

不透明的物体（比如苹果）： 光线照上去，要么被挡住，要么反射回来。你看到的颜色就是它表面的颜色，形状也很清楚。
透明的物体（比如花瓶）： 光线会穿过它，还会发生折射（就像把筷子插进水里看起来弯了一样）。
- 你透过花瓶看到的背景，是被“扭曲”过的。
- 花瓶内部如果有花纹或颜色，光线穿过时会变暗（被吸收）。
- 难点在于： 电脑很难分清，你看到的某个扭曲的图像，到底是花瓶本身的形状造成的，还是背景被折射造成的？这就好比试图通过看哈哈镜里的倒影，来猜出镜子里的人长什么样，而且镜子里还混杂着背后的风景。

以前的方法要么只能处理形状简单的玻璃，要么只能处理表面光滑的，一旦遇到内部有复杂花纹（比如镶嵌宝石的戒指）或者形状奇怪的透明物体，它们就“晕”了，重建出来的东西要么是一团模糊，要么内部全是破洞。

2. DiffTrans 是怎么做的？（三步走的“侦探”）

DiffTrans 就像一位高明的侦探，它分三步走，把“形状”和“材质”分开处理，最后合二为一。

第一步：画个大概的轮廓（几何初始化）

比喻： 就像孩子玩橡皮泥。
做法： 系统先不看复杂的颜色，只看物体在照片里的剪影（轮廓）。它用一种叫"FlexiCubes"的技术，像捏橡皮泥一样，先捏出一个大概的形状。
创新点： 为了防止橡皮泥捏得坑坑洼洼或者中间有裂缝，它加了一些“平滑剂”和“膨胀剂”（正则化），确保捏出来的形状既符合轮廓，又光滑完整。

第二步：把背景“抠”出来（环境重建）

比喻： 就像在修图软件里把背景换掉。
做法： 透明物体之所以难，是因为它折射了背景。DiffTrans 会先利用物体周围的照片，把整个房间的光线和背景（环境光）重建出来。
目的： 这样它就知道：“哦，原来那个扭曲的图像，是因为背景里的树被折射了，而不是物体本身长那样。”

第三步：终极魔法——递归光线追踪（核心大招）

比喻： 这是一个**“光线弹弹球”**游戏，而且这个球会自己思考。
做法： 这是 DiffTrans 最厉害的地方。它设计了一个可微分的递归光线追踪器。
- 想象一束光射向玻璃球。
- 普通方法： 光线进去就没了，或者只算一次反弹。
- DiffTrans 的方法： 光线射进去，会像弹珠一样，在玻璃内部反复弹跳（折射、反射），直到能量耗尽或射出。
- 关键点： 在这个过程中，电脑会同时计算三个东西：
  1. 形状（球是圆的还是扁的？）
  2. 折射率（光线在里面弯得有多厉害？是像水一样还是像钻石一样？）
  3. 吸收率（光线穿过时，有多少被“吃掉”了？比如红宝石内部是深红色的，就是因为吸收了其他光）。
- 为什么快？ 以前的方法算这个很慢，像用算盘算。DiffTrans 直接用了 CUDA（显卡的并行计算语言），就像用超级计算机算，速度飞快，效率极高。

3. 它有什么超能力？

能看清“内部”： 以前的技术只能看到玻璃表面，DiffTrans 能还原出玻璃内部的纹理和颜色（比如一个内部有气泡或花纹的玻璃球）。
能“换灯”（重光照）： 因为系统不仅重建了物体，还重建了它的光学属性（折射率、吸收率），所以你可以把重建好的玻璃球放到任何新场景里，甚至把灯光关掉、换成霓虹灯，它都能呈现出极其真实的光影效果。这就像给物体换了一件“物理属性”的衣服，而不是简单的贴图。
适应性强： 无论是复杂的形状（像猴子、马），还是内部有复杂花纹的物体，它都能搞定。

4. 总结

简单来说，DiffTrans 就像是一个**“透明物体透视眼”**。

以前的方法看透明物体，就像透过毛玻璃看世界，模模糊糊，只能猜个大概。而 DiffTrans 通过先捏轮廓、再抠背景、最后用超级算力的“光线弹弹球”模拟物理定律，把透明物体的形状、内部花纹和光学特性全部精准地还原了出来。

这项技术未来可以用来：

制作更逼真的电影特效（比如魔法水晶球）。
工业检测（检查玻璃制品内部是否有瑕疵）。
虚拟现实（VR）中，让你能真实地拿起并观察虚拟的透明物体。

这篇论文的核心贡献就是：把透明物体重建这个“不可能完成的任务”，变成了一个高效、精准且能处理复杂细节的常规操作。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem)

从多视角图像中重建透明物体的几何形状和材质是一个极具挑战性的病态问题（ill-posed problem）。

核心难点：透明物体的外观不仅取决于其表面几何，还受到光线折射、内部吸收以及环境光反射的复杂影响。微小的场景参数变化会导致外观剧烈变化。
现有方法的局限性：
- 许多现有方法（如基于 eikonal 场的方法）难以提取可靠的网格，无法处理拓扑结构复杂的物体。
- 基于神经隐式表面（NeRF/SDF）或 3D 高斯溅射（Gaussian Splatting）的方法通常忽略了透明物体的内部吸收纹理，或者仅建模表面材质。
- 缺乏对复杂内部吸收纹理（如珠宝、玻璃装饰、树脂工艺品）的有效建模，导致在真实复杂场景下的重建质量不佳。
- 大多数方法难以同时解耦几何、折射率（IoR）和吸收率，限制了场景编辑（如重光照）的能力。

2. 方法论 (Methodology)

作者提出了 DiffTrans，一个用于透明物体几何与材质解耦的可微渲染框架。该方法采用渐进式训练策略，分为三个阶段：

2.1 几何与环境初始化 (Initialization)

基于掩码的几何初始化：
- 利用多视角物体掩码（Silhouette/Mask）恢复初始几何。
- 采用 FlexiCubes 作为等值面表示，通过可微光栅化器将 3D 网格投影到 2D 平面。
- 关键创新：引入膨胀正则化（Dilation Regularization）和平滑正则化（Smoothness Regularization）。膨胀正则化用于填充网格裂缝，平滑正则化用于抑制深度和法向量的噪声，从而从仅掩码监督中高效获得高质量的初始几何。
环境光辐射场初始化：
- 利用掩码区域外的像素（Out-of-Mask Pixels），结合体素网格和三平面（Triplane）表示，恢复场景的环境光辐射场（Environment Radiance Field）。

2.2 光线与透明物体交互建模 (Light Interaction)

物理假设：假设物体内部折射率一致（光线直线传播），材质仅由折射率（IoR）和吸收率（Absorption Rate）组成，表面表现为镜面反射（忽略粗糙度）。
光线追踪逻辑：
- 反射与折射：基于菲涅尔方程（Fresnel Equation）计算反射率 $R$ 和透射率 $T$ 。
- 介质传输：简化辐射传输方程，使用 Beer-Lambert 定律模拟光线在吸收介质中的衰减。吸收率被建模为可微的 3D 纹理。
- 递归追踪：光线在物体内外递归追踪，直到达到最大深度或离开场景。

2.3 可微递归网格光线追踪器 (Differentiable Recursive Mesh Ray Tracer)

核心组件：设计了一个递归的、可微的网格光线追踪器，在 OptiX 和 CUDA 中实现，显著降低了计算成本。
联合优化：在统一且端到端的框架下，同时优化：
1. 几何形状（网格顶点）。
2. 折射率 (IoR)。
3. 吸收率 (Absorption Rate)。
优化策略：
- 使用 $L_2$ 损失监督渲染颜色。
- 引入色调正则化（Tone Regularization），约束颜色的通道比率，防止因背景折射导致的吸收率梯度错误。
- 对吸收率进行局部平滑正则化，避免背景偏差。
- 使用 AdamUniform 优化器优化网格以减少噪声。

3. 主要贡献 (Key Contributions)

DiffTrans 框架：提出了一种新颖的可微渲染框架，能够高效地分解和重建具有复杂拓扑和内部纹理的透明物体的几何与材质。
基于 FlexiCubes 的初始化策略：利用带膨胀和平滑正则化的 FlexiCubes，仅凭多视角掩码即可高效重建初始几何，并同步恢复环境光场。
递归可微光线追踪器：设计了用于联合优化几何、折射率和吸收率的递归光线追踪器，并在 CUDA/OptiX 中实现，实现了高效的端到端优化。
复杂场景下的卓越性能：能够处理具有复杂内部吸收纹理（如珠宝、树脂）的透明物体，这是现有方法难以做到的。

4. 实验结果 (Results)

数据集：在合成数据集（NEMTO, Lyu et al.）和真实世界数据集（iPhone 拍摄的花卉等）上进行了广泛测试。
几何重建质量：
- 在 Chamfer Distance (CD) 和 F1-score 指标上，DiffTrans 显著优于 NeRO, NU-NeRF, NeRRF 等 SOTA 方法。
- 能够准确重建复杂拓扑结构（如马、猴子、兔子），避免了空洞填充错误和表面粗糙问题。
材质与折射率预测：
- 能够准确预测折射率（IoR），预测值与真实值差异极小。
- 成功恢复了具有复杂吸收纹理的物体（如带有颜色渐变的透明物体）。
重光照能力 (Relighting)：
- 由于解耦了材质和几何，DiffTrans 支持场景编辑（如更换环境光）。
- 在重光照任务中，PSNR、SSIM 和 LPIPS 指标均优于 NeRRF 和 NeRO，证明了其物理建模的准确性。
消融实验：验证了色调正则化、膨胀正则化以及两阶段优化策略的有效性。

5. 意义与影响 (Significance)

突破性进展：解决了透明物体重建中长期存在的“几何 - 材质耦合”难题，特别是针对具有复杂内部吸收纹理的物体，填补了现有方法的空白。
实用价值：提出的方法不仅重建质量高，而且支持重光照等下游任务，为数字孪生、虚拟现实（VR/AR）中的透明物体建模提供了强有力的工具。
效率提升：通过 CUDA 实现的递归光线追踪器，在保证物理正确性的同时，大幅降低了计算成本，使得端到端优化成为可能。
未来方向：虽然目前假设了光滑表面和均匀折射率，但该方法为未来处理更复杂的粗糙透明物体和非均匀介质奠定了基础。

总结：DiffTrans 通过结合 FlexiCubes 初始化、环境光场恢复以及自定义的可微递归光线追踪器，成功实现了对复杂透明物体（含内部纹理）的高保真几何与材质重建，是目前该领域的一项领先工作。