Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Fused-Planes（融合平面） 的新方法，旨在解决 3D 建模中“太慢、太费内存”的痛点。

为了让你轻松理解，我们可以把这篇论文的核心思想想象成 “开一家连锁餐厅” 的故事。

1. 背景：以前的做法太“笨”了

在 3D 计算机视觉领域，以前有一种很流行的技术叫 Tri-Planes（三平面）。你可以把它想象成一种**“独立装修”**的模式。

以前的做法（Tri-Planes）：
假设你要给 2000 个不同的房间（3D 物体）做装修。以前的方法是：请 2000 个不同的装修队，每个房间都从头开始，单独设计、单独买材料、单独施工。
- 后果： 虽然每个房间都装修得很漂亮，但你需要花巨大的时间和金钱。而且，你会发现这 2000 个房间其实有很多共同点（比如都有门、都有窗户、都有地板），但装修队却把这些共同点重复计算了 2000 次。这就是资源浪费。

2. 新方案：Fused-Planes（融合平面）

这篇论文提出的 Fused-Planes 就像是一个**“超级连锁餐厅集团”的运营模式。它不再为每个房间单独从头装修，而是采用了“共享模板 + 个性化微调”**的策略。

它把装修分成了两部分：

A. 宏观部分（Macro）：共享的“标准菜单”

比喻： 餐厅集团先设计了一套**“基础装修模板”（比如标准的墙面颜色、地板材质、门框样式）。这套模板是所有房间共享**的。
技术原理： 论文里叫它**“共享基平面”（Shared Base Planes）**。这些平面捕捉了所有物体（比如所有汽车、所有人脸）共有的结构特征。
好处： 你只需要训练这一套模板一次，所有房间都能复用。这就省去了 99% 的重复劳动。

B. 微观部分（Micro）：个性化的“软装”

比喻： 虽然基础装修一样，但每个房间还需要一点**“个人特色”。比如张三的房间挂了一幅画，李四的房间换了个特殊的窗帘。这些就是“对象特定的特征”**。
技术原理： 每个物体只保留一个非常小的**“微平面”（Micro Plane）**，专门记录它独有的细节。
好处： 你不需要为每个房间重新建墙，只需要花极小的成本调整一下“软装”。

3. 核心魔法：在“压缩空间”里干活

除了“共享模板”，这篇论文还引入了一个更聪明的技巧：在潜空间（Latent Space）里训练。

比喻：
- 传统方法像是在高清 4K 电视上直接画画，每一笔都要处理海量的像素，非常慢。
- Fused-Planes 像是先把画压缩成一张低分辨率的草图（潜空间），在草图上快速完成“共享模板”和“个性化微调”的构思。等画好了，再一键放大还原成高清 4K 图。
好处： 在草图上干活速度快得多，而且因为草图更紧凑，更容易发现不同物体之间的共同规律（比如所有汽车的草图里，车轮的位置都很像）。

4. 成果：快如闪电，轻如鸿毛

通过这种“共享模板 + 个性化微调 + 压缩空间”的组合拳，Fused-Planes 取得了惊人的效果：

速度快： 训练速度比以前的 Tri-Planes 快了 7.2 倍。
- 比喻： 以前装修 2000 个房间要 1 年，现在只要 2 个月。
省内存： 占用的内存空间减少了 3.2 倍。
- 比喻： 以前需要 2000 个巨大的仓库来存装修图纸，现在只需要几个小抽屉。
超轻量版（Fused-Planes-ULW）： 甚至有一个“极简版”，连“个性化软装”都省了，只保留“共享模板”。
- 比喻： 这就像只存了一个通用的“房间结构图”，每个房间只存几个字的名字。内存占用直接减少了 1875 倍！虽然画质稍微损失了一点点（就像草图稍微模糊了一点点），但绝大多数人根本看不出来。

5. 总结

这篇论文的核心思想就是：不要每次都从零开始造轮子。

在构建大量 3D 物体时，与其为每个物体单独训练一个庞大的模型，不如先学会“通用的结构”（共享基平面），再给每个物体加一点点“独特的灵魂”（微平面），并且在这个过程中利用**“压缩技巧”**来加速。

这使得让计算机快速、低成本地理解和重建成千上万个 3D 物体成为可能，为未来的 3D 生成、编辑和虚拟现实应用打开了大门。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《FUSED-PLANES: WHY TRAIN A THOUSAND TRI-PLANES WHEN YOU CAN SHARE?》（融合平面：为何要训练一千个三平面，当你可以共享时？）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

三平面 NeRF (Tri-Planes) 的局限性： 三平面表示法（Tri-Planes）因其能将 3D 对象表示为 2D 平面结构，从而能够无缝集成强大的 2D 视觉模型（如 CNN、Diffusion 模型），已成为大规模 3D 对象重建的主流选择。
资源效率低下： 现有的 Tri-Planes 方法通常独立训练每个对象的三平面。在处理包含成千上万个对象的大规模数据集时，这种方法忽略了对象类别之间存在的结构相似性，导致计算冗余和内存浪费。
核心痛点： 构建大规模 Tri-Planes 数据集的计算成本极其高昂，且内存占用巨大，限制了其在实际大规模 3D 应用中的普及。

2. 方法论 (Methodology)

作者提出了 Fused-Planes，一种新型的对象表示方法，旨在通过共享结构相似性来提高资源效率，同时保持三平面的特性。

核心架构设计

Fused-Planes 将对象表示分解为两个部分：

微观组件 (Micro Component)： 每个对象特有的平面特征 ( $T^{mic}_i$ )，用于捕捉该对象独有的细节。
宏观组件 (Macro Component)： 基于共享基平面 (Shared Base Planes) 的加权分解。
- 定义一组全局共享的基平面集合 $B = \{B_k\}_{k=1}^M$ ，这些基平面捕捉了整个对象类别的结构相似性。
- 每个对象的宏观平面 $T^{mac}_i$ 是基平面的线性加权和： $T^{mac}_i = W_i B = \sum w_{i,k} B_k$ 。
- 最终对象表示为： $T_i = T^{mic}_i \oplus T^{mac}_i$ （在特征维度拼接）。

3D 感知潜在空间 (3D-Aware Latent Space)

为了更有效地解耦“对象特异性细节”和“类别级结构相似性”，Fused-Planes 不在 RGB 空间直接训练，而是在一个3D 感知的潜在空间中训练。
该潜在空间由一个自编码器（Encoder $E_\phi$ 和 Decoder $D_\psi$ ）定义。
联合训练： 与以往在预训练潜在空间中训练不同，本文将 3D 感知潜在空间与 Fused-Planes 表示联合训练。这使得潜在空间能够专门适应这种“微观 - 宏观”分解结构，从而在加速训练的同时保持渲染质量。

训练流程

两阶段优化策略：
1. 阶段 1： 对前 $N_1$ 个对象（如 500 个）联合训练 Fused-Planes、编码器、解码器和基平面。
2. 阶段 2： 冻结编码器，仅对剩余对象训练其微观平面、权重和基平面（微调解码器）。
损失函数： 包含潜在空间重建损失 ( $L_{latent}$ )、RGB 空间重建损失 ( $L_{RGB}$ ) 和自编码器重建损失 ( $L_{ae}$ )。

超轻量级变体 (Fused-Planes-ULW)

提出了一种极端轻量级版本，设置微观特征维度 $F^{mic} = 0$ ，即完全依赖共享基平面。
虽然牺牲了少量渲染质量，但极大地降低了每个对象的内存占用。

3. 主要贡献 (Key Contributions)

首次引入共享表示到三平面架构： 提出了 Fused-Planes，显式地利用对象类别间的结构相似性，通过共享基平面和潜在空间来减少冗余计算。
显著的资源效率提升：
- 相比传统 Tri-Planes，训练速度快 7.2 倍。
- 内存占用减少 3.2 倍。
- 超轻量版 (ULW) 相比 Tri-Planes 内存占用减少 1875 倍。
保持高质量与兼容性： 在大幅提升效率的同时，保持了与 Tri-Planes 相同的平面结构，确保其能继续兼容现有的 2D 视觉模型流水线，且渲染质量（PSNR/SSIM）与 Tri-Planes 相当甚至更优。
可扩展性： 证明了该方法在多类别混合训练（Multi-class training）场景下依然有效，能够捕捉跨类别的通用结构。

4. 实验结果 (Results)

实验在 ShapeNet（汽车、家具、扬声器、沙发）和 Basel Faces 数据集上进行，对比了 K-Planes、Tri-Planes、CodeNeRF 及其他 NeRF 方法。

效率对比 (Table 1 & Fig 1)：
- Fused-Planes: 训练时间 8.96 分钟/对象，内存 0.48 MB/对象，PSNR 30.47 (ShapeNet Cars)。
- Tri-Planes: 训练时间 64.32 分钟/对象，内存 1.50 MB/对象，PSNR 28.15。
- K-Planes: 训练时间 75.35 分钟/对象，内存 410.17 MB/对象。
- 结论： Fused-Planes 在速度、内存和画质上均取得了最佳平衡，确立了平面表示的新 SOTA。
超轻量版表现 (Fused-Planes-ULW)：
- 内存仅需 0.0008 MB/对象（比 Tri-Planes 少 1875 倍），PSNR 为 29.02，仅损失极少量画质。
多类别训练 (Table 4)： 在混合多个类别（如汽车 + 家具）的数据集上，Fused-Planes 依然优于 Tri-Planes，证明了共享基平面能有效捕捉跨类别的通用结构。
消融实验 (Table 5)： 验证了“潜在空间”和“共享基平面”缺一不可。若去掉潜在空间（在 RGB 空间训练）或去掉共享组件（仅微观平面），性能均会下降。

5. 意义与影响 (Significance)

降低 3D 重建门槛： 极大地降低了大规模 3D 对象重建的计算和存储成本，使得在消费级硬件或大规模云端部署中训练数千个 3D 模型成为可能。
赋能下游任务： 由于保留了 Tri-Planes 的 2D 平面结构，Fused-Planes 可以无缝接入基于图像生成的模型（如 Diffusion Models），为 3D 编辑、分类、生成等下游任务提供了更高效的数据基础。
范式转变： 从“独立训练每个对象”转向“共享结构 + 个性化微调”的范式，为大规模神经辐射场（NeRF）的研究提供了新的思路。

总结： Fused-Planes 通过引入共享基平面和 3D 感知潜在空间，成功解决了 Tri-Planes 在大规模场景下训练慢、显存高的问题，在保持甚至提升渲染质量的同时，实现了数量级的效率提升，是大规模 3D 重建领域的重要突破。