Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

本文提出了一种基于轨迹感知移位状态空间模型(TS-Mamba)的在线视频超分辨率新方法,通过结合长程轨迹建模与低复杂度的 Mamba 架构,利用移位扫描机制和轨迹感知损失函数实现高效且精准的时空信息聚合,在显著降低计算复杂度的同时取得了优于现有基准模型的性能。

Qiang Zhu, Xiandong Meng, Yuxian Jiang, Fan Zhang, David Bull, Shuyuan Zhu, Bing Zeng, Ronggang Wang

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TS-Mamba 的新技术,专门用来解决在线视频超分辨率(Online Video Super-Resolution)的问题。

简单来说,就是如何把模糊、低清的视频,在播放的同时实时变清晰

为了让你更容易理解,我们可以把整个过程想象成**“在嘈杂的集市里拼凑一张模糊的地图”**。

1. 背景:为什么这很难?

想象你正在看一场直播(比如在线会议或体育比赛),画面很模糊(低分辨率)。你想让它变清晰(高分辨率)。

  • 传统方法(以前的做法): 就像你只盯着上一秒的画面,试图猜出这一秒的细节。这就像只看邻居昨天穿的衣服,来猜今天他穿什么,很容易猜错,而且如果动作太快,根本跟不上。
  • 现在的痛点: 以前的技术要么太慢(电脑算不过来,直播会卡顿),要么只能看很短的时间(只看前一帧),导致画面细节恢复得不完美。

2. 核心创新:TS-Mamba 是怎么做的?

作者提出了三个“绝招”:

第一招:画轨迹(Trajectory-aware)—— 像“追踪老熟人”

以前的方法只看眼前这一帧。TS-Mamba 不一样,它会先在视频里画出物体的运动轨迹

  • 比喻: 想象你在看一场足球赛。以前的方法只看球现在的模糊位置。TS-Mamba 会像老球迷一样,盯着球过去几秒是怎么滚动的,画出它的运动路线。
  • 作用: 沿着这条路线,它能从过去的几帧画面里,精准地找到和当前画面最相似、最清晰的碎片(Token),而不是盲目地抓取。这就像在拼图时,只挑那些形状和颜色都对的碎片,而不是乱抓一把。

第二招:Shifted SSMs(移位状态空间模型)—— 像“多角度的扫描仪”

这是论文里最硬核的技术部分,基于一种叫 Mamba 的新技术。

  • 问题: Mamba 像是一个高效的扫描仪,能把 2D 的画面变成 1D 的长条数据来处理。但是,这种“扫描”方式有个毛病:它把画面切开后,边缘的连续性容易断掉(就像把一张照片剪成条,再拼回去,接缝处可能不平整)。
  • TS-Mamba 的解法: 作者设计了一种**“扫描 - 移位 - 再扫描”**(Scan-Shift-Scan)的魔法。
    • 比喻: 想象你在用扫帚扫地。如果只按一个方向扫,角落里的灰尘(细节)扫不干净。TS-Mamba 就像是一个聪明的清洁工,先按希尔伯特曲线(一种特殊的蜿蜒路径)扫一遍,发现有些角落没扫到,于是它把扫帚稍微挪动一下位置(Shift),换个角度再扫一遍。
    • 结果: 通过这种“挪动位置”的巧妙组合,它完美填补了扫描留下的缝隙,保证了画面在空间上的连贯性,既快又准。

第三招:轨迹感知损失函数 —— 像“严厉的教练”

在训练模型时,作者加了一个特殊的“惩罚机制”。

  • 比喻: 就像教练在训练运动员。如果运动员(模型)画的运动轨迹(Trajectory)是歪的,或者找错了参考碎片,教练就会立刻扣分(Loss Function)。
  • 作用: 这强迫模型必须学会准确地追踪物体运动,确保它从过去帧里选出来的“参考碎片”是真正有用的,而不是瞎蒙的。

3. 效果如何?

论文在三个主流测试集上进行了“大考”,结果非常亮眼:

  • 画质更好: 恢复出来的视频更清晰,细节更丰富(比如汽车的纹理、人脸的轮廓)。
  • 速度更快: 它的计算量比目前最先进的方法减少了 22.7%
  • 实时性: 它能在不卡顿的情况下处理高清视频,非常适合直播、视频会议等需要“即看即清”的场景。

总结

TS-Mamba 就像是一个拥有“时间透视眼”和“多方位扫帚”的智能修图师
它不再死板地只看前一秒,而是顺着物体的运动轨迹,从过去的时间里“借”来最清晰的碎片,再用一种巧妙的“挪动扫描”方式把它们完美拼合。最终,它用更少的电脑算力,实现了更流畅、更清晰的在线视频体验。

一句话概括: 以前是“盲人摸象”(只看局部),现在是“顺藤摸瓜”(看轨迹)+“多角补漏”(移位扫描),让模糊视频实时变高清。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →