LiTo: Surface Light Field Tokenization

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LiTo（Surface Light Field Tokenization，表面光场标记化）的新技术。为了让你轻松理解，我们可以把这项技术想象成给 3D 物体制作“超级全息身份证”。

1. 核心问题：以前的 3D 模型太“呆板”了

想象一下，你手里拿着一个普通的塑料玩具车。

以前的 3D 模型：就像给这个玩具车拍了一张照片，然后把它变成一个只有形状和固定颜色的 3D 模型。如果你转动它，或者换个角度看，它看起来还是那个颜色，不会反光，也不会因为光线变化而改变。它就像一张画在纸上的画，虽然立体，但没有“灵魂”。
现实世界：当你转动那个玩具车，金属部分会反射出窗户的光（高光），塑料部分在边缘可能会透出一点光（菲涅尔效应）。这些随着角度和光线变化的效果，才是让物体看起来“真实”的关键。

以前的 AI 要么只能学形状，要么只能学固定的颜色，很难同时学会这种“随光线变魔术”的能力。

2. LiTo 的解决方案：捕捉“光场”的指纹

LiTo 的核心思想是：不要只记录物体“长什么样”，要记录物体“在光线下是怎么表现的”。

什么是“表面光场”？
想象物体表面布满了无数个小传感器。每个传感器不仅记录“这里是什么颜色”，还记录“从哪个角度看，这里是什么颜色”。这就叫表面光场。
- 比喻：以前我们只给物体拍了一张“正面照”；LiTo 则是给物体拍了一部360 度全景电影，记录了它在所有角度、所有光线下的样子。
怎么把这么大的数据存下来？（Tokenization/标记化）
这部“全景电影”数据量太大了，存不下。LiTo 发明了一种“压缩算法”（Tokenization）。
- 比喻：就像把一部几小时的电影压缩成一个U 盘里的加密文件。这个文件（Latent Vectors/潜在向量）非常小，但里面包含了重建整部电影所需的所有关键信息。
- LiTo 的编码器就像是一个超级翻译官，它把复杂的 3D 光影信息，翻译成一串简短的“密码”（Latent Tokens）。

3. 它是如何工作的？（三步走）

第一步：学习“光影密码”（Tokenizer）

LiTo 先给 AI 看很多物体的多张不同角度的照片（RGB-D 图像，即带深度的彩色图）。

输入：AI 看到物体表面的一点，不仅知道它的颜色，还知道“我是从哪个角度看的”。
训练：AI 学习把这些零散的光影信息，压缩成那串“密码”。
解码：当 AI 拿到这串“密码”时，它能重新“播放”出物体在任何角度、任何光线下的样子，包括金属的反光和玻璃的透光。

第二步：生成新物体（Generative Model）

有了这个“密码本”，AI 就能玩“看图生图”了。

输入：你给 AI 一张普通的照片（比如一张猫的照片）。
过程：AI 根据照片，直接生成那串“光影密码”。
输出：AI 解码出这串密码，瞬间生成一个完整的 3D 猫。
- 这个 3D 猫不仅形状对，而且如果你围着它转，它的眼睛会反光，毛发的光泽会随光线变化，就像真的一样。

4. 为什么它很厉害？（对比优势）

对比旧方法（如 TRELLIS）：
- 旧方法生成的物体，就像涂了哑光漆的模型，转来转去颜色都不变。
- LiTo 生成的物体，就像涂了真实材质的模型，转起来会有高光、有反射，非常逼真。
单图生成：
- 以前从一张图生成 3D，往往需要猜物体的朝向，容易生成歪歪扭扭的东西。
- LiTo 非常聪明，它能完美理解输入图片的视角，生成的 3D 物体和原图的角度严丝合缝，不会“头重脚轻”或方向错误。

5. 总结：一个生动的比喻

如果把生成 3D 物体比作做一道菜：

以前的 AI：只给了你食材的形状（比如一个圆形的土豆），但没告诉你怎么调味。做出来的土豆是灰扑扑的，不管你怎么看，味道都一样。
LiTo：不仅给了你土豆的形状，还给了你完整的烹饪秘籍（光场密码）。它告诉你：在左边看是焦黄的，在右边看是油亮的，在强光下会反光。
结果：当你用 LiTo 生成新菜时，不管从哪个角度看，这道菜都看起来色香味俱全，仿佛刚从锅里端出来一样真实。

一句话总结：
LiTo 是一种让 AI 学会“理解光线”的新技术，它能把复杂的 3D 光影信息压缩成小巧的“密码”，从而生成既拥有完美形状、又拥有真实反光和材质效果的 3D 物体，让虚拟世界看起来像真的一样。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《LiTo: Surface Light Field Tokenization》（LiTo：表面光场分词化）的技术总结。

1. 研究背景与问题 (Problem)

现有的 3D 生成和重建方法通常面临以下局限性：

几何与外观分离：大多数工作要么专注于重建 3D 几何形状（如点云、SDF、网格），要么将外观建模为与视角无关的漫反射颜色（Diffuse Color）。
缺乏视角依赖性：现有方法难以捕捉真实世界中复杂的视角依赖效果（View-Dependent Effects），如镜面高光（Specular Highlights）、菲涅尔反射（Fresnel Reflections）以及在不同光照和角度下的材质变化。
数据预处理繁琐：许多基于体素或隐式场的方法需要水密网格（Watertight Meshes）或复杂的优化过程来定义监督信号，限制了其在大规模数据集上的应用。

核心目标：提出一种能够联合建模物体3D 几何和视角依赖外观的紧凑 3D 潜在表示（Latent Representation），并实现从单张图像到高质量 3D 对象的生成。

2. 方法论 (Methodology)

作者提出了 LiTo，一种基于**表面光场（Surface Light Field, SLF）**的 3D 潜在表示方法。

2.1 核心概念：表面光场分词化

定义：表面光场被建模为一个 5D 函数 $\ell(x, \hat{d})$ ，其中 $x$ 是表面 3D 位置， $\hat{d}$ 是观察方向，输出是颜色 $c$ 。
输入：模型不直接输入完整的密集光场，而是从多视角 RGB-D 图像中随机采样稀疏的表面光场样本集 $X = \{(x_i, \hat{d}_i, c_i)\}$ 。
编码器 (Encoder)：
- 使用 Perceiver IO 架构将稀疏的输入样本压缩为一组紧凑的潜在向量 $S$ （ $k=8192$ 个 token，维度 $d=32$ ）。
- 3D 分块 (3D Patchification)：为了解决大量输入点（约 100 万）带来的计算瓶颈，作者设计了一种基于 K 近邻（KNN）的近似分块机制。将输入点映射到查询 Token 的索引上，利用交叉注意力（Cross-Attention）聚合信息，而非传统的网格化。
- 自注意力机制：使用基于体素的注意力机制（Voxel-based Attention），将同一粗粒度体素内的 Token 进行自注意力计算，以提高效率。
解码器 (Decoders)：
- 几何解码器 (Geometry Decoder)：基于流匹配 (Flow Matching)。它将潜在向量 $S$ 映射为 3D 空间中的概率密度分布，能够生成表面点云并估计法线，无需显式的网格先验。
- 视角依赖高斯解码器 (View-Dependent Gaussian Decoder)：将潜在向量 $S$ 解码为 3D 高斯泼溅 (3D Gaussian Splatting)。关键在于使用3 阶球谐函数 (Spherical Harmonics, SH) 来编码视角依赖的颜色，从而能够渲染出高光、反射等复杂效果。
生成模型 (Generative Model)：
- 训练了一个基于 Diffusion Transformer (DiT) 的流匹配模型。
- 条件输入：单张输入图像（通过 DINOv2 编码）。
- 坐标对齐策略：在训练时，将世界坐标系旋转，使输入图像的相机姿态归一化为单位姿态（Identity Orientation）。这使得模型无需推断 3D 方向，直接生成与输入视角对齐的 3D 对象，解决了现有方法（如 TRELLIS）生成结果方向不一致的问题。

2.2 训练框架

联合监督：
- 几何监督：通过流匹配损失函数，确保解码出的点云分布与真实表面一致。
- 外观监督：从随机视角渲染 3D 高斯，并与真实图像计算 L2 损失和 LPIPS 损失。
数据：基于 Objaverse-XL 的 50 万个高质量物体，配合多视角 RGB-D 渲染。

3. 主要贡献 (Key Contributions)

统一的 3D 潜在表示：首次提出将表面光场信息编码为紧凑的潜在向量，同时捕捉几何结构和视角依赖的外观（包括高光、反射），打破了以往几何与外观分离的局限。
创新的训练框架：
- 利用 RGB-D 多视角图像的随机子采样作为表面光场输入。
- 设计了结合流匹配几何解码和 3 阶球谐高斯外观解码的联合监督机制。
- 实现了无需额外粗几何先验（Coarse Geometry Oracle）的单阶段生成。
单图到 3D 生成模型：开发了基于 DiT 的流匹配生成模型，能够根据单张输入图像生成具有正确光照和材质属性的完整 3D 对象，且生成结果在几何和外观上均与输入视角高度一致。
高效性与可扩展性：通过 3D 分块和体素注意力机制，模型能够处理百万级输入点，且潜在空间维度极小（$8192 \times 32$），远小于现有结构化潜变量方法。

4. 实验结果 (Results)

重建质量 (Reconstruction)：
- 在 Toys4k、GSO 和 PBR-Objaverse 数据集上，LiTo 在 PSNR、SSIM 和 LPIPS 指标上均显著优于 SOTA 方法（如 TRELLIS, 3DTopia-XL）。
- 特别是在视角依赖效果（如金属反光、菲涅尔效应）的渲染上，LiTo 能够还原真实感，而 TRELLIS 等方法往往只能生成漫反射外观或出现伪影。
- 几何重建精度（Chamfer Distance）在不需要额外几何先验的情况下，与依赖先验的方法相当甚至更优。
生成质量 (Generation)：
- 输入保真度：在单图生成任务中，LiTo 生成的物体在输入视角下的 FID 和 KID 分数显著优于 TRELLIS，证明了其对输入视角和内容的忠实度。
- 视角一致性：生成的 3D 对象在旋转视角后，其材质和光照表现自然，且物体朝向与输入图像一致，无需后处理对齐。
效率：
- 潜在空间大小仅为 $8192 \times 32$，比 TRELLIS 的稀疏体素表示小约 10 倍。
- 推理速度在 H100 GPU 上具有竞争力，且支持单阶段生成（无需先生成几何再生成纹理）。

5. 意义与影响 (Significance)

真实感 3D 生成的突破：LiTo 证明了通过显式建模表面光场，可以在紧凑的潜在空间中同时保留几何细节和复杂的光照交互（如反射、高光），这对于构建高保真 3D 资产至关重要。
简化 3D 生成管线：该方法不需要像 TRELLIS 那样分两阶段（先生成粗几何，再生成纹理），也不需要依赖水密网格等繁琐的数据预处理，降低了 3D 生成的门槛。
可控性与一致性：通过坐标归一化训练策略，解决了单图生成中物体朝向不确定的问题，使得生成的 3D 内容能更自然地融入输入图像的场景中。
未来方向：该工作为基于表面光场的 3D 表示提供了新范式，未来可进一步探索在动态场景、重光照（Relighting）以及更高阶材质属性建模上的应用。

总结：LiTo 通过引入表面光场分词化，成功解决了现有 3D 表示方法在视角依赖外观建模上的短板，实现了高质量、高保真且几何与外观解耦的 3D 生成与重建，是目前该领域的重要进展。