Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GSStream 的新系统，它的目标是解决一个非常具体的问题：如何像流媒体看视频一样，流畅地观看超高清的 3D 全景场景。

为了让你更容易理解，我们可以把这项技术想象成**“给未来的 VR 眼镜送快递”**。

1. 背景：为什么我们需要它？

想象一下，现在的 3D 技术（比如 3D Gaussian Splatting，简称 3DGS）就像是用**几百万颗发光的“魔法尘埃”**来构建一个逼真的虚拟世界。

优点：这些“尘埃”组成的画面极其逼真，就像真的一样，而且能实时渲染（你转头，画面立刻跟着变）。
缺点：因为“尘埃”太多了，数据量巨大。如果把整个虚拟世界的所有“尘埃”一次性打包发给你的 VR 眼镜，就像试图用一根吸管把整个游泳池的水吸干——网速根本跑不动，画面会卡成 PPT。

以前的方法要么是把所有数据硬塞（卡顿），要么是只发一部分（画面模糊）。这篇论文提出的 GSStream，就是为了解决这个“既要画质好，又要网速快”的矛盾。

2. GSStream 是怎么工作的？（三大核心魔法）

GSStream 系统主要由三个聪明的“助手”组成，它们分工合作：

助手一：读心术（协同视口预测模块 CVP）

问题：在 VR 里，你下一秒会看哪里？如果你转头看左边，系统必须提前把左边的画面准备好。如果猜错了，画面就会卡顿或模糊。
传统做法：以前的系统把所有人都当成“机器人”，认为大家的转头习惯都一样，或者只盯着你一个人看。
GSStream 的做法：它像是一个经验丰富的老导游。
- 它不仅看你过去的动作（历史习惯），还观察其他 30 多个人的行为模式（协同学习）。
- 比喻：就像在电影院，如果你发现大家都往左看（比如那里有爆炸特效），系统就知道你大概率也会往左看。它利用“群体智慧”来猜你下一秒想看哪里，比只猜你一个人的习惯更准。

助手二：智能调度员（基于深度强化学习的码率自适应模块 DBA）

问题：网速是不稳定的，有时候快（像高速公路），有时候慢（像堵车）。而且，不同的 3D 场景里，“尘埃”的分布也不一样（有的地方多，有的地方少）。
传统做法：以前的系统像是一个死板的邮差。不管路堵不堵，它都按固定的路线送包裹；或者不管包裹大小，它都只送一种规格的箱子。这导致要么送太慢，要么送太多浪费带宽。
GSStream 的做法：它像是一个拥有超级大脑的物流调度中心。
- 它利用深度强化学习（DRL），就像训练一个玩游戏的 AI。AI 在无数次模拟中学习到：当网速快时，多送点高清的；当网速慢时，只送关键的；当场景复杂时，灵活调整。
- 关键点：它不假设每个场景的“包裹”数量是一样的。它能把不同大小的场景灵活打包，确保在有限的网速下，把你眼睛正在看和马上要看的地方，用最高的画质送过去，而把你看不到的角落（比如背后的墙）用低画质甚至不送。

助手三：专属数据集（用户行为数据库）

为了训练上面的“老导游”和“调度员”，作者们专门搞了一个**“人类看 VR 行为大数据库”**。
他们找了 32 个不同背景的人，让他们在 15 个不同的虚拟场景里自由探索，记录了超过 86 万帧的转头数据。这就像是为了训练 AI 司机，专门收集了各种路况和驾驶习惯的数据，让系统更懂人类。

3. 效果如何？

作者们做了很多实验，把 GSStream 和现有的几种最先进的方法（ViVo, CaV3, GS3D）进行了对比：

画质：在同样的网速下，GSStream 看到的画面更清晰、更流畅（SSIM 指标更高）。
网速：它更会“省流量”，在有限的网速下传输了更多有用的信息。
比喻：如果其他系统是在用“大卡车”运货，不管路多窄都硬挤，或者只运空箱子；GSStream 则像是无人机群，根据路况和客户需求，精准地把最重要的货物（你正在看的画面）第一时间送到你手上。

总结

GSStream 就是一个**“懂你、会算、能变通”的 3D 流媒体系统。
它通过观察大家的行为来预测你的目光**，再通过AI 智能调度，在网速有限的情况下，把最清晰、最重要的 3D 画面“变”到你的 VR 眼镜里，让你既能享受电影级的画质，又不会因为卡顿而晕头转向。

这就好比给未来的元宇宙世界修了一条智能高速公路，让海量的 3D 数据能像水流一样，既快又稳地流向你的眼睛。

Each language version is independently generated for its own context, not a direct translation.

GSStream：基于 3D 高斯泼溅（3DGS）的体素场景流式传输系统技术总结

1. 研究背景与问题 (Problem)

背景：
3D 高斯泼溅（3D Gaussian Splatting, 3DGS）技术通过显式聚合大量 3D 高斯球来建模体素场景，实现了高保真、实时的辐射场渲染，彻底改变了体素场景表示领域。然而，这种高质量渲染带来了巨大的数据体积（例如，一个高质量室内场景可能需要数百兆字节），对现有的网络带宽和实时传输构成了严峻挑战。

核心问题：
现有的体素场景流式传输方案在应用于 3DGS 时面临三大主要挑战：

缺乏专用数据集： 针对 3DGS 场景的用户视口（Viewport）轨迹数据匮乏，阻碍了高效视口预测模型的开发。
视口预测精度不足： 现有方法通常将不同用户的视口轨迹视为同质化处理，忽略了用户个体行为惯性（如移动习惯、偏好）的差异，导致预测不够精准。
码率自适应（Bitrate Adaptation）的局限性： 现有的深度强化学习（DRL）方法在处理码率自适应问题时，往往假设场景被划分为固定数量的图块（Tiles），无法适应 3DGS 场景中图块数量动态变化（State/Action Space Variability）的特性，难以实现最优的带宽分配。

2. 方法论 (Methodology)

本文提出了 GSStream，一个专为 3DGS 数据格式设计的新型体素场景流式传输系统。该系统主要由三个核心模块组成，协同工作以优化传输效率和质量：

2.1 预处理与分块 (Pre-Processing)

将体素场景划分为非重叠的立方体图块（Tiles）。
利用体素网格滤波器（Voxel Grid Filter）将每个图块下采样为 $L$ 个不同质量级别（Quality Levels）的表示。
每个图块的质量级别对应不同的点云密度和比特率。

2.2 协同视口预测模块 (Collaborative Viewport Prediction, CVP)

该模块旨在解决用户行为差异和预测精度问题，包含两个子模块：

协同先验提取 (CPE)： 利用多用户数据学习用户特定的嵌入向量（User Embeddings）。通过交叉注意力机制（Cross-Attention），模型不仅能捕捉时间序列上的行为演变，还能学习不同用户之间的行为模式关联（即“协同”信息），从而提取个体化的行为特征。
历史先验提取 (HPE)： 基于单用户的历史视口序列，利用 MLP 和 iTransformer 模块提取时间依赖关系，预测未来的视口位置和旋转。
融合： 将 CPE 提取的协同特征与 HPE 提取的历史特征拼接，通过 MLP 解码为未来的视口预测序列（位置 + 旋转）。

2.3 基于深度强化学习的码率自适应模块 (DRL-based Bitrate Adaptation, DBA)

该模块将码率分配问题建模为马尔可夫决策过程（MDP），利用 DDPG (Deep Deterministic Policy Gradient) 算法进行求解，以应对状态和动作空间的变异性。

状态空间 (State)： 包含当前带宽吞吐量、预测的未来视口序列、以及场景中所有图块的特征（位置、重要性评分、已传输进度等）。
动作空间 (Action)： 输出每个图块在特定质量级别的偏好分数。系统根据分数贪婪地选择传输哪些图块及质量级别，确保总传输量不超过当前带宽。
奖励函数 (Reward)： 综合考虑三个因素：
1. 渐进流式奖励： 优先传输用户视口（FoV）内或即将进入视口的图块，并优先传输增量内容。
2. 重要性奖励： 优先传输重要性评分（基于高斯缩放因子）高的图块。
3. 延迟惩罚： 惩罚传输耗时过长的情况。
处理变异性： 针对不同场景图块数量不一致的问题，系统引入了 集合抽象 (Set Abstraction, SA) 和 特征传播 (Feature Propagation, FP) 模块（源自 PointNet 架构）。这使得神经网络能够处理无序且长度可变的图块集合，有效解决了状态空间维度变化的问题。

3. 关键贡献 (Key Contributions)

首个 3DGS 流式传输系统： 提出了 GSStream，首次将协同视口预测（CVP）与基于 DRL 的码率自适应（DBA）无缝集成，专门针对 3DGS 数据格式优化。
首个 3DGS 用户视口轨迹数据集： 构建了包含 15 个多样化场景（室内/室外）和 32 名受试者行为数据的大规模数据集。实验表明，3DGS 的高保真特性激发了用户更活跃、更多样化的交互行为（位置分布方差是传统点云数据集的 9 倍）。
解决状态/动作空间变异性： 通过引入 SA 和 FP 模块，成功解决了不同场景图块数量不一致导致的 DRL 输入输出维度变化问题，实现了通用的自适应策略。
性能显著提升： 在视觉质量和网络利用率方面均超越了现有的最先进（SOTA）系统。

4. 实验结果 (Results)

实验在 15 个场景（12 个训练，3 个测试）和模拟的蜂窝网络带宽（40/80/120 Mbps）下进行，对比了 ViVo、CaV3 和 GS3D 等基线系统。

视觉质量 (SSIM)：
- GSStream 在平均视口 SSIM 指标上，分别比 ViVo、CaV3 和 GS3D 提高了 118.9%、9.4% 和 10.9%。
- 在低带宽（40Mbps）下优势尤为明显，证明了其优秀的渐进式流式传输能力。
时间维度质量：
- 在动态网络条件下，GSStream 能更平滑地适应带宽变化，避免了其他系统在初始阶段的质量剧烈波动或中后期的细节丢失。
带宽利用率：
- GSStream 能够更稳定、高效地利用可用带宽，数据传输曲线更加平滑，减少了带宽浪费。
消融实验：
- 验证了 CVP 模块中“协同先验”和“历史先验”缺一不可。协同先验显著提升了位置预测精度（反映用户习惯差异），历史先验显著提升了旋转预测精度（反映时间序列特性）。

5. 意义与展望 (Significance & Future Work)

意义：
GSStream 为 3DGS 技术在大规模、实时流式传输场景（如 VR/AR、远程呈现）中的落地提供了关键解决方案。它证明了通过结合用户行为建模（协同学习）和智能资源调度（DRL），可以在有限的带宽下实现高保真的沉浸式体验。

局限与未来方向：

动态内容支持： 目前系统主要针对静态场景，未来计划扩展至支持动态体素视频流（Volumetric Video）。
编码优化： 当前采用简单的下采样生成多质量级别，未来计划引入专为 3DGS 设计的编解码器（Codecs），以实现更高效的压缩和渐进式编码，进一步降低带宽需求。

总结：
GSStream 通过创新的协同预测机制和适应变异性状态的强化学习算法，成功解决了 3DGS 高数据量带来的传输瓶颈，为下一代沉浸式互联网内容分发奠定了坚实基础。

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System