Geometric Transformation-Embedded Mamba for Learned Video Compression

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GTEM-LVC 的新型视频压缩技术。为了让你轻松理解，我们可以把“视频压缩”想象成把一大箱乐高积木打包寄给朋友的过程。

📦 核心问题：现在的打包方式太笨重了

传统的视频压缩（就像现在的快递打包）通常采用一种“混合模式”：

先找规律：快递员（算法）必须拿着放大镜，一帧一帧地对比，找出上一帧和这一帧哪里动了（运动估计），哪里没动。
再打包：把没动的部分存起来，只把动的部分和变化的部分打包。
缺点：这个过程非常复杂，就像快递员要一边跑一边算，不仅累（计算量大），而且如果算错了（比如物体被遮挡了），打包出来的东西就会变形，画质变差。

🚀 我们的新方案：直接“魔法”打包

这篇论文提出的新方法，不再去费力地计算“哪里动了”，而是采用一种直接变换的策略。它就像是一个拥有“透视眼”和“魔法手”的超级打包员，直接看穿视频的本质，把信息压缩得更小、更清晰。

这个新打包员由三个核心“超能力”组成：

1. 时空穿梭机：级联 Mamba 模块 (CMM)

比喻：想象你在看一部电影，以前的方法只能让你像看幻灯片一样，一帧一帧地看（只看空间），或者像翻书一样，一页一页地看（只看时间）。
新能力：我们的“级联 Mamba 模块”就像一台时空穿梭机。它不仅能向前看、向后看，还能在空间（画面左右上下）和时间（电影的前后剧情）之间自由穿梭。
几何变换：它还会玩“变形金刚”游戏。在扫描视频时，它会先把画面翻转、旋转或转置（这就是“几何变换”），然后再扫描。这就像是为了看清一个复杂的迷宫，你不仅正面看，还把它倒过来、侧过来看，确保没有任何一个角落的线索被遗漏。
效果：它能捕捉到视频里那些长长的、跨画面的联系（比如一个人从屏幕左边走到右边，虽然隔了很多帧，但它是同一个人），从而把冗余信息压得更小。

2. 细节放大镜：局部细化前馈网络 (LRFFN)

比喻：前面的“时空穿梭机”擅长看大局（比如整辆车的移动），但有时候会忽略细节（比如车身上的划痕或车轮的纹理）。
新能力：这个模块就像是一个超级显微镜。它专门使用一种叫“差分卷积”的技术。
原理：普通的显微镜是看“物体是什么”，而我们的“差分显微镜”专门看“物体哪里不一样"。它只关注像素点之间的微小差异（比如边缘、纹理变化）。
效果：因为只记录“变化”而不是“整体”，它可以用极少的数据量（比特）把画面的精细纹理（如头发丝、砖墙纹理）还原得非常逼真，避免了画面变得像“磨皮”一样模糊。

3. 智能预测员：条件熵模型

比喻：在打包时，快递员需要猜：“下一箱里大概会装什么？”猜得越准，包装箱就能做得越小。
新能力：以前的快递员只参考“上一箱”的内容来猜。我们的新系统不仅参考“上一箱”，还利用当前这一箱的“预演”信息（伪潜在特征）来辅助猜测。
原理：它就像是一个经验丰富的老练打包员，不仅看昨天的快递单，还能根据今天的货物特征，提前预判今天会装什么。
效果：这种“双重保险”的预测让数据压缩得更精准，大大减少了浪费的空间。

🏆 最终成果：更清晰、更流畅、更省流量

经过大量实验测试，这个新系统（GTEM-LVC）在低带宽（就像在拥挤的早高峰地铁里传视频）的情况下表现惊人：

画质更好：画面更清晰，细节更丰富，不像其他方法那样糊成一团。
更流畅：视频播放时没有那种“卡顿”或“闪烁”的感觉，时间上的连续性非常好。
更智能：不需要复杂的运动计算，直接通过“变换”就能搞定，既聪明又高效。

总结

简单来说，这篇论文发明了一种不用“算运动”也能把视频压得极小的新方法。它通过360 度无死角扫描（Mamba）、死磕细节（差分卷积）和精准预测（条件熵模型），让视频在传输时既省流量，又保持高清和流畅。这就像是用最轻的羽毛，装下了最重的宝藏。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Geometric Transformation-Embedded Mamba for Learned Video Compression》（嵌入几何变换的 Mamba 用于学习式视频压缩）的详细技术总结。

1. 研究背景与问题 (Problem)

现有方法的局限性：
- 混合编码范式（Hybrid Coding）：大多数现有的学习式视频压缩方法（如 DCVC 系列）遵循传统混合编码范式，依赖显式的运动估计（Motion Estimation）和运动补偿（Motion Compensation）。这导致解决方案复杂，需要处理残差编码、运动矢量和运动补偿网络，计算开销大且难以优化。
- 变换编码的不足：基于变换（Transform-based）的压缩方法虽然避免了显式运动估计，但早期工作（如使用 3D 卷积）受限于局部感受野，难以捕捉长距离的时空依赖。而仅基于 2D 卷积独立编码帧的方法（如 VCT），仅利用过去帧的潜在特征作为条件，难以充分表征复杂的时序依赖，导致压缩性能次优。
- 感知质量与时间一致性：在低码率下，现有方法往往产生过度平滑或视觉上不真实的重建图像，且帧间时间一致性较差（出现闪烁或伪影）。

2. 核心方法论 (Methodology)

作者提出了一种**基于直接变换策略（Direct Transform Strategy）**的端到端视频压缩框架，包含非线性变换、量化和熵编码，无需显式的运动估计与补偿。其核心架构由以下三个关键模块组成：

2.1 级联 Mamba 模块 (Cascaded Mamba Module, CMM)

目的：捕捉视频帧中长距离的空间和时间依赖关系。
创新点：
- 引入了几何变换嵌入的 Mamba 块（GTMB）。不同于传统的多方向并行扫描（计算开销大），该模块通过可逆的几何变换（如翻转、转置）将特征映射到不同的扫描顺序，然后进行单向选择性扫描（Selective Scanning）。
- 四种扫描策略：
  1. FST (Forward Spatio-Temporal)：先空间后时间，正向扫描。
  2. BST (Backward Spatio-Temporal)：时空维度翻转后扫描。
  3. FTS (Forward Temporal-Spatial)：先时间后空间，正向扫描（转置操作）。
  4. BTS (Backward Temporal-Spatial)：时空维度转置并翻转后扫描。
- 这四个方向扫描的 GTMB 被级联使用，形成 CMM，从而在编码器和解码器中实现对全局时空上下文的高效建模。

2.2 局部细化前馈网络 (Locality Refinement Feed-forward Network, LRFFN)

目的：弥补 Mamba 在捕捉局部细节方面的不足，增强局部空间表示。
创新点：
- 设计了一个混合卷积块（Hybrid Convolution Block, HCB），包含五种并行卷积操作：垂直差分卷积、水平差分卷积、角度差分卷积、中心差分卷积以及普通卷积。
- 差分卷积（Difference Convolutions）：专注于捕捉相邻像素间的变化（高频细节），而非绝对强度，从而获得更紧凑的表示，减少编码所需的比特数。
- LRFFN 通过双分支结构，利用 HCB 提取的局部特征来调制另一分支的特征，有效减少通道冗余。

2.3 条件通道熵模型 (Conditional Channel-wise Entropy Model, CCEM)

目的：利用时序先验信息，更准确地估计当前帧潜在特征的分布概率，提高熵编码效率。
创新点：
- 双重条件机制：不仅利用已解码的过去帧潜在特征（ $\bar{y}_{t-1}, \bar{y}_{t-2}$ ），还引入了**当前帧的伪潜在特征（Pseudo-latent features）**作为辅助条件。
- 预测运动对齐模块 (PMA)：利用过去两帧的解码特征估计运动，并校正后用于对齐当前帧的潜在特征，生成伪对齐特征 $\tilde{y}_t$ 。实验证明，在潜在空间中，相邻帧的运动可以作为伪真值（Pseudo Ground Truth）用于对齐。
- 条件生成网络 (CGN)：结合对齐特征和过去帧特征，生成融合条件 $c_t$ ，指导当前帧的熵模型参数估计。

3. 主要贡献 (Key Contributions)

提出了一种帧依赖且潜在依赖的变换式视频压缩方法：摒弃了复杂的显式运动估计，通过直接变换策略实现了具有竞争力的感知质量和时间一致性。
设计了嵌入几何变换的级联 Mamba 模块 (CMM)：通过四种不同的几何变换扫描策略，高效捕捉了视频数据中跨时空的非局部依赖关系。
开发了局部细化前馈网络 (LRFFN)：利用基于差分卷积的混合卷积块，有效建模局部依赖并保留细粒度细节。
构建了条件通道熵模型：创新性地结合了已解码帧特征和当前帧的伪对齐特征作为条件，显著提升了熵估计的准确性。

4. 实验结果 (Results)

数据集：在 Vimeo-90k 和 REDS 上训练，在 REDS4、UVG 和 MCL-JCV 三个基准测试集上进行评估。
性能对比：
- 感知质量：在 LPIPS 和 DISTS 指标上，该方法在低码率下显著优于现有的混合编码方法（如 DCVC 系列）和基于 Transformer 的方法。
- 时间一致性：在 tLPIPS 指标上取得了最佳表现，重建视频的时间连贯性更好，减少了闪烁和伪影。
- 失真指标：在 PSNR 和 MS-SSIM 上，虽然 ICISP 在感知指标上表现不错但像素级失真较大，而本文方法在保持高感知质量的同时，也维持了较高的像素级保真度。
视觉效果：在低码率下，本文方法能更好地保留结构细节（如路灯、桥梁、汽车结构），而对比方法往往产生过度平滑或结构模糊的结果。
复杂度：模型参数量（约 47.79M）与主流混合编码方法相当，编码/解码速度优于 DCVC 系列，但略慢于部分轻量级模型（主要瓶颈在于熵模型）。

5. 意义与价值 (Significance)

范式创新：该工作证明了在视频压缩中，利用状态空间模型（Mamba）结合几何变换，可以替代传统的显式运动估计模块，简化了压缩架构并提升了性能。
长短期依赖平衡：通过 CMM 和 LRFFN 的结合，成功解决了长距离时空依赖捕捉与局部细节保留之间的矛盾，为视频压缩中的特征表示提供了新思路。
低码率优化：特别针对低码率场景进行了优化，显著提升了重建视频的感知质量和时间稳定性，对于带宽受限的应用场景（如流媒体、视频会议）具有重要的应用价值。
开源贡献：作者公开了源代码和模型，促进了该领域的进一步研究。

总结：这篇论文提出了一种名为 GTEM-LVC 的新型视频压缩框架，通过引入几何变换嵌入的 Mamba 模块和差分卷积网络，在无需显式运动估计的情况下，实现了在低码率下卓越的感知质量和时间一致性，代表了学习式视频压缩领域的一个重要进展。