Geometric Transformation-Embedded Mamba for Learned Video Compression

本文提出了一种基于直接变换策略的流式视频压缩框架,通过嵌入几何变换的级联 Mamba 模块和基于差分卷积的局部细化前馈网络来高效捕捉时空依赖,并结合条件熵模型,在低比特率下实现了优于现有方法的感知质量与时间一致性。

Hao Wei, Yanhui Zhou, Chenyang Ge

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GTEM-LVC 的新型视频压缩技术。为了让你轻松理解,我们可以把“视频压缩”想象成把一大箱乐高积木打包寄给朋友的过程。

📦 核心问题:现在的打包方式太笨重了

传统的视频压缩(就像现在的快递打包)通常采用一种“混合模式”:

  1. 先找规律:快递员(算法)必须拿着放大镜,一帧一帧地对比,找出上一帧和这一帧哪里动了(运动估计),哪里没动。
  2. 再打包:把没动的部分存起来,只把动的部分和变化的部分打包。
  3. 缺点:这个过程非常复杂,就像快递员要一边跑一边算,不仅累(计算量大),而且如果算错了(比如物体被遮挡了),打包出来的东西就会变形,画质变差。

🚀 我们的新方案:直接“魔法”打包

这篇论文提出的新方法,不再去费力地计算“哪里动了”,而是采用一种直接变换的策略。它就像是一个拥有“透视眼”和“魔法手”的超级打包员,直接看穿视频的本质,把信息压缩得更小、更清晰。

这个新打包员由三个核心“超能力”组成:

1. 时空穿梭机:级联 Mamba 模块 (CMM)

  • 比喻:想象你在看一部电影,以前的方法只能让你像看幻灯片一样,一帧一帧地看(只看空间),或者像翻书一样,一页一页地看(只看时间)。
  • 新能力:我们的“级联 Mamba 模块”就像一台时空穿梭机。它不仅能向前看、向后看,还能在空间(画面左右上下)和时间(电影的前后剧情)之间自由穿梭。
  • 几何变换:它还会玩“变形金刚”游戏。在扫描视频时,它会先把画面翻转、旋转或转置(这就是“几何变换”),然后再扫描。这就像是为了看清一个复杂的迷宫,你不仅正面看,还把它倒过来、侧过来看,确保没有任何一个角落的线索被遗漏
  • 效果:它能捕捉到视频里那些长长的、跨画面的联系(比如一个人从屏幕左边走到右边,虽然隔了很多帧,但它是同一个人),从而把冗余信息压得更小。

2. 细节放大镜:局部细化前馈网络 (LRFFN)

  • 比喻:前面的“时空穿梭机”擅长看大局(比如整辆车的移动),但有时候会忽略细节(比如车身上的划痕或车轮的纹理)。
  • 新能力:这个模块就像是一个超级显微镜。它专门使用一种叫“差分卷积”的技术。
  • 原理:普通的显微镜是看“物体是什么”,而我们的“差分显微镜”专门看“物体哪里不一样"。它只关注像素点之间的微小差异(比如边缘、纹理变化)。
  • 效果:因为只记录“变化”而不是“整体”,它可以用极少的数据量(比特)把画面的精细纹理(如头发丝、砖墙纹理)还原得非常逼真,避免了画面变得像“磨皮”一样模糊。

3. 智能预测员:条件熵模型

  • 比喻:在打包时,快递员需要猜:“下一箱里大概会装什么?”猜得越准,包装箱就能做得越小。
  • 新能力:以前的快递员只参考“上一箱”的内容来猜。我们的新系统不仅参考“上一箱”,还利用当前这一箱的“预演”信息(伪潜在特征)来辅助猜测。
  • 原理:它就像是一个经验丰富的老练打包员,不仅看昨天的快递单,还能根据今天的货物特征,提前预判今天会装什么。
  • 效果:这种“双重保险”的预测让数据压缩得更精准,大大减少了浪费的空间。

🏆 最终成果:更清晰、更流畅、更省流量

经过大量实验测试,这个新系统(GTEM-LVC)在低带宽(就像在拥挤的早高峰地铁里传视频)的情况下表现惊人:

  • 画质更好:画面更清晰,细节更丰富,不像其他方法那样糊成一团。
  • 更流畅:视频播放时没有那种“卡顿”或“闪烁”的感觉,时间上的连续性非常好。
  • 更智能:不需要复杂的运动计算,直接通过“变换”就能搞定,既聪明又高效。

总结

简单来说,这篇论文发明了一种不用“算运动”也能把视频压得极小的新方法。它通过360 度无死角扫描(Mamba)、死磕细节(差分卷积)和精准预测(条件熵模型),让视频在传输时既省流量,又保持高清和流畅。这就像是用最轻的羽毛,装下了最重的宝藏。