P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于P-GSVC（一种全新的图像和视频压缩技术）的论文。为了让你轻松理解，我们可以把这项技术想象成**“搭乐高积木”或者“画一幅画”**的过程。

🎨 核心概念：从“粗糙草图”到“高清大作”

想象一下，你正在教一个机器人画画。

传统方法（旧技术）： 机器人先画完整幅画，然后为了让你看个大概，它把画里“不重要”的笔触擦掉。结果就是，你看到的草图全是窟窿，画面支离破碎，根本看不清画的是什么。
P-GSVC 的新方法： 机器人把画画分成了**“基础层”和“增强层”**。
- 基础层： 先画出一个完整的、虽然有点模糊但结构清晰的轮廓（比如人的头、身体都在，只是没细节）。
- 增强层： 接着在基础层上，一层一层地添加细节（比如眼睛的高光、衣服的纹理）。
- 好处： 无论网络多慢，你都能先看到完整的“草图”，随着数据加载，画面会像变魔术一样越来越清晰，而且永远不会出现画面破碎或有大窟窿的情况。

🚧 遇到的难题：为什么以前做不到？

论文里提到，以前的科学家尝试过这种“分层”画法，但遇到了两个大麻烦：

“各自为战”的混乱（优化冲突）：
- 以前的做法是：先专心画好“基础层”，把它锁死（冻结），然后再去画“增强层”。
- 问题： 就像盖楼，如果地基（基础层）已经盖死了，上面的人想加个漂亮的阳台（增强层），却发现地基的柱子位置不对，导致阳台盖不上去，或者盖歪了。因为地基和阳台没有“商量”过，它们互相不配合。
- 结果： 画面质量上不去，或者中间加载时画面会闪烁、变形。
“擦除”带来的灾难：
- 另一种旧方法是：先画满整幅画，然后按“重要性”把笔擦掉。
- 问题： 就像为了省空间，把画里“不重要”的像素删掉。结果发现，那些看似不重要的像素其实是连接两个物体的桥梁，一删，画面就断开了，全是洞（如图 1a 所示）。

💡 P-GSVC 的绝招：联合训练（大家一起练）

为了解决上面“地基和阳台不配合”的问题，P-GSVC 发明了一种**“联合训练”**的策略。

比喻： 想象一个合唱团。
- 旧方法（顺序训练）： 先让低音部练好，练完美了不许动；再让高音部练。结果高音部一唱，发现低音部定调不对，整个合唱很难听。
- P-GSVC 方法（联合训练）： 让低音部和高音部同时练习。
  - 有时候让低音部单独唱（模拟只看基础层）。
  - 有时候让全员合唱（模拟看完整画面）。
  - 通过这种循环往复、交替进行的练习，低音部和高音部学会了如何互相配合。低音部知道怎么为高音部留空间，高音部也知道怎么依附低音部。

技术上的叫法： 论文里称之为“循环联合训练”。在训练过程中，模型会同时优化“只看基础层”和“看完整层”两种状态，确保每一层都能完美衔接。

🌟 这项技术带来了什么？

网速再慢也能看：
- 就像看视频时的“缓冲”，以前缓冲时画面是花屏或黑块。现在，P-GSVC 能让你先看到完整的低清画面，随着网速变好，画面自动变清晰，中间过程没有卡顿和破洞。
画质更好：
- 实验证明，这种“大家一起练”的方法，比“分开练”的方法，画质（PSNR）提高了 1.9 到 2.6 分贝。在视频压缩领域，这相当于画质有了肉眼可见的巨大提升。
既省空间又灵活：
- 它可以用同一套数据，适应手机、电脑、电视等各种不同大小的屏幕（分辨率缩放），也能适应从 4G 到 5G 等各种网速。

📝 总结

P-GSVC 就像是一个聪明的画师。它不再是一次性画完再擦除，也不是先画底稿再死板地加细节。而是一边画底稿，一边加细节，让它们互相配合、共同成长。

对普通用户： 意味着在网速不好的时候，也能流畅地看到完整的视频，而且画面越看越清晰，没有那些恼人的黑块和破洞。
对技术界： 它证明了用“高斯点”（一种数学上的小光点）来代表图像和视频，配合这种“分层联合训练”的新方法，是未来视频压缩和流媒体传输的一个非常有潜力的方向。

简单来说，就是让视频传输变得更聪明、更流畅、画质更好。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
高斯泼溅（Gaussian Splatting）作为一种显式的 3D/2D 表示方法，在图像和视频重建中表现出色。然而，现有的高斯泼溅方法（如 2DGS 和 3DGS）通常针对单一分辨率或质量级别进行优化，缺乏可扩展性（Scalability）。传统的可扩展编解码器（如 JPEG2000, HEVC-SHVC）支持分层传输，允许在带宽波动或设备异构的情况下进行渐进式解码，但现有的基于学习的方法（通常是隐式表示）难以直接应用这种分层机制，且缺乏细粒度的比特率控制。

核心挑战：
将 2D 高斯泼溅扩展为可扩展的渐进式表示面临以下主要困难：

层间优化冲突（Cross-Layer Optimization Conflicts）： 如果简单地按贡献度对高斯点进行排序分层（即贡献大的在底层，小的在高层），会导致底层重建出现明显的空洞和伪影。这是因为高斯点是在联合训练中以过拟合最高保真度为目标，彼此高度依赖，移除任何子集都会破坏整体结构。
渐进式训练的不稳定性（Progressive Instability）： 如果采用传统的“逐层训练”策略（先训练底层，冻结参数，再训练高层），由于视频包含时间动态（运动、光照变化），不同层的目标函数存在冲突。这导致优化轨迹不匹配，容易陷入次优局部极小值，且中间层（中间解码状态）的重建质量极差，无法满足渐进式解码的需求。
动态内容的复杂性： 视频中的时间冗余和场景变化使得高斯点在不同帧和不同层之间的依赖性比静态 3D 场景更复杂，直接沿用静态场景的分层训练策略会导致收敛困难。

2. 方法论 (Methodology)

作者提出了 P-GSVC (Progressive Gaussian Splat Video Coding)，这是首个针对图像和视频的分层渐进式 2D 高斯泼溅框架。

2.1 分层表示架构

P-GSVC 将输入（图像或视频）表示为多个高斯集合的层级结构：

基础层 ( $L_0$ )： 包含一组高斯泼溅，提供粗糙但完整的场景表示。
增强层 ( $\Delta L_1, \Delta L_2, \dots$ )： 每一层包含额外的高斯泼溅，用于逐步细化细节。
重建过程： 第 $\ell$ 级的重建结果由基础层加上前 $\ell$ 个增强层的高斯集合联合渲染得到。这种结构支持从低质量/低分辨率到高质量/高分辨率的渐进式解码。

2.2 核心创新：联合训练策略 (Joint Training Strategy)

为了解决逐层训练带来的冲突和不稳定性，P-GSVC 提出了一种联合训练策略，而非顺序训练：

多目标联合优化： 在每一次迭代中，同时优化两个（或多个）不同层级的重建目标。具体来说，同时监督完整层级（所有层）的重建和中间层级（仅包含部分层）的重建。
循环层级选择 (Cyclic Level Selection)： 在训练过程中，中间层级的目标不是随机选择的，而是按照循环顺序（Cyclic Order）进行切换。
- 例如，如果有 3 层，训练过程会在“优化 $L_0+L_1+L_2$ "和“优化 $L_0+L_1$ "之间循环切换。
- 优势： 这种策略确保了梯度场的稳定性，避免了因频繁切换优化目标导致的梯度剧烈波动，使不同层的高斯点从一开始就沿着对齐的轨迹优化，保证了层间的兼容性。

2.3 视频特定优化

针对视频数据，P-GSVC 继承了 GSVC 的核心机制：

时间预测： 利用 P 帧从前一帧预测高斯参数，利用时间冗余。
高斯泼溅剪枝 (GSP)： 移除对视觉质量贡献低的高斯点，降低码率。
高斯泼溅增强 (GSA)： 在动态区域或新物体出现时注入新的高斯点。
动态关键帧选择 (DKS)： 检测场景切换并自适应插入 I 帧。

2.4 量化与压缩

采用 GSVC 的量化策略，对位置、协方差（Cholesky 分解向量）和颜色进行量化。
I 帧和 P 帧采用不同的量化精度和差分编码策略，以进一步压缩数据。

3. 主要贡献 (Key Contributions)

首个可扩展的 2DGS 框架： 提出了 P-GSVC，这是第一个能够同时支持图像和视频的可扩展渐进式高斯表示框架。
联合训练策略的有效性验证： 证明了在 2DGS 中，通过联合优化不同层级的目标（而非顺序冻结训练），可以显著解决层间冲突，实现稳定的渐进式重建。
性能突破： 实验表明，与传统的逐层顺序训练方法相比，P-GSVC 在视频上提升了 1.9 dB 的 PSNR，在图像上提升了 2.6 dB 的 PSNR。
统一解决方案： 该框架统一了图像和视频的可扩展编码，利用 2D 高斯泼溅的显式特性，实现了比隐式神经网络更灵活的内容编辑和比特率控制。

4. 实验结果 (Results)

实验在 Kodak/DIV-HR (图像) 和 UVG (视频) 数据集上进行，对比了剪枝法 (Pruning)、单体法 (Monolithic)、顺序训练法 (Sequential) 和 P-GSVC。

图像重建质量：
- 在 Kodak 和 DIV-HR 数据集上，P-GSVC 相比顺序训练法（LIG）在 PSNR 上提升了 1.9–2.6 dB。
- 在 MS-SSIM 和 LPIPS（感知相似度）指标上也表现出显著优势，证明了联合训练能更好地保留结构细节和感知质量。
视频可扩展性：
- 质量可扩展性： 随着高斯点数量增加，P-GSVC 的各层级质量提升明显。相比之下，顺序训练法在增强层上的提升非常有限（陷入局部最优），而 P-GSVC 的 $L_2$ 层级比顺序法高出近 2 dB。
- 分辨率可扩展性： P-GSVC 能够平滑地适应不同分辨率，中间层（ $L_0, L_1$ ）的重建没有明显的伪影（如空洞），而简单的剪枝法在低层级会出现严重破损。
- 率失真性能 (Rate-Distortion)： 在量化后的率失真曲线中，P-GSVC 虽然略低于非可扩展的单体模型（Monolithic，作为上限），但显著优于顺序训练法，并缩小了与标准编解码器 SHVC 的差距。
可视化效果：
- 图 1 和图 6 显示，P-GSVC 在仅解码基础层或中间层时，能保持场景的完整性，而对比方法（如剪枝法）会出现明显的孔洞和结构断裂。

5. 意义与影响 (Significance)

填补了技术空白： 解决了将高斯泼溅应用于自适应流媒体和可扩展编码的关键难题，特别是克服了层间优化冲突这一核心瓶颈。
适应异构网络与设备： P-GSVC 提供的渐进式解码能力，使其非常适合在带宽波动或设备性能差异巨大的网络环境中进行视频流传输（例如，先传输低质量基础层，再根据带宽逐步加载增强层）。
连接经典与神经编码： 该工作架起了传统分层编解码器（如 SHVC）与新兴神经隐式/显式表示之间的桥梁，证明了显式高斯泼溅在压缩和编辑灵活性上的潜力。
未来方向： 虽然目前的编码速度较慢（离线场景适用），但其推理渲染速度极快（实时），且论文指出了通过多 GPU 并行化加速编码的潜力，为未来的实际部署奠定了基础。

总结： P-GSVC 通过创新的分层结构和循环联合训练策略，成功实现了 2D 高斯泼溅的可扩展编码，在保持高保真度的同时，显著提升了图像和视频在渐进式传输场景下的性能，是神经渲染与视频压缩领域的一项重要进展。