Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TS-Mamba 的新技术，专门用来解决在线视频超分辨率（Online Video Super-Resolution）的问题。

简单来说，就是如何把模糊、低清的视频，在播放的同时实时变清晰。

为了让你更容易理解，我们可以把整个过程想象成**“在嘈杂的集市里拼凑一张模糊的地图”**。

1. 背景：为什么这很难？

想象你正在看一场直播（比如在线会议或体育比赛），画面很模糊（低分辨率）。你想让它变清晰（高分辨率）。

传统方法（以前的做法）： 就像你只盯着上一秒的画面，试图猜出这一秒的细节。这就像只看邻居昨天穿的衣服，来猜今天他穿什么，很容易猜错，而且如果动作太快，根本跟不上。
现在的痛点： 以前的技术要么太慢（电脑算不过来，直播会卡顿），要么只能看很短的时间（只看前一帧），导致画面细节恢复得不完美。

2. 核心创新：TS-Mamba 是怎么做的？

作者提出了三个“绝招”：

第一招：画轨迹（Trajectory-aware）—— 像“追踪老熟人”

以前的方法只看眼前这一帧。TS-Mamba 不一样，它会先在视频里画出物体的运动轨迹。

比喻： 想象你在看一场足球赛。以前的方法只看球现在的模糊位置。TS-Mamba 会像老球迷一样，盯着球过去几秒是怎么滚动的，画出它的运动路线。
作用： 沿着这条路线，它能从过去的几帧画面里，精准地找到和当前画面最相似、最清晰的碎片（Token），而不是盲目地抓取。这就像在拼图时，只挑那些形状和颜色都对的碎片，而不是乱抓一把。

第二招：Shifted SSMs（移位状态空间模型）—— 像“多角度的扫描仪”

这是论文里最硬核的技术部分，基于一种叫 Mamba 的新技术。

问题： Mamba 像是一个高效的扫描仪，能把 2D 的画面变成 1D 的长条数据来处理。但是，这种“扫描”方式有个毛病：它把画面切开后，边缘的连续性容易断掉（就像把一张照片剪成条，再拼回去，接缝处可能不平整）。
TS-Mamba 的解法： 作者设计了一种**“扫描 - 移位 - 再扫描”**（Scan-Shift-Scan）的魔法。
- 比喻： 想象你在用扫帚扫地。如果只按一个方向扫，角落里的灰尘（细节）扫不干净。TS-Mamba 就像是一个聪明的清洁工，先按希尔伯特曲线（一种特殊的蜿蜒路径）扫一遍，发现有些角落没扫到，于是它把扫帚稍微挪动一下位置（Shift），换个角度再扫一遍。
- 结果： 通过这种“挪动位置”的巧妙组合，它完美填补了扫描留下的缝隙，保证了画面在空间上的连贯性，既快又准。

第三招：轨迹感知损失函数 —— 像“严厉的教练”

在训练模型时，作者加了一个特殊的“惩罚机制”。

比喻： 就像教练在训练运动员。如果运动员（模型）画的运动轨迹（Trajectory）是歪的，或者找错了参考碎片，教练就会立刻扣分（Loss Function）。
作用： 这强迫模型必须学会准确地追踪物体运动，确保它从过去帧里选出来的“参考碎片”是真正有用的，而不是瞎蒙的。

3. 效果如何？

论文在三个主流测试集上进行了“大考”，结果非常亮眼：

画质更好： 恢复出来的视频更清晰，细节更丰富（比如汽车的纹理、人脸的轮廓）。
速度更快： 它的计算量比目前最先进的方法减少了 22.7%。
实时性： 它能在不卡顿的情况下处理高清视频，非常适合直播、视频会议等需要“即看即清”的场景。

总结

TS-Mamba 就像是一个拥有“时间透视眼”和“多方位扫帚”的智能修图师。
它不再死板地只看前一秒，而是顺着物体的运动轨迹，从过去的时间里“借”来最清晰的碎片，再用一种巧妙的“挪动扫描”方式把它们完美拼合。最终，它用更少的电脑算力，实现了更流畅、更清晰的在线视频体验。

一句话概括： 以前是“盲人摸象”（只看局部），现在是“顺藤摸瓜”（看轨迹）+“多角补漏”（移位扫描），让模糊视频实时变高清。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《Trajectory-Aware Shifted State Space Models for Online Video Super-Resolution》（基于轨迹感知移位状态空间模型的在线视频超分辨率）。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

在线视频超分辨率 (Online VSR) 旨在仅利用当前低分辨率（LR）帧及其之前的帧来恢复当前高分辨率（HR）帧，广泛应用于实时视频会议和直播场景。现有方法面临以下挑战：

长程时序建模受限： 大多数现有的在线 VSR 方法仅依赖单帧前一帧进行时间对齐和聚合，难以利用长距离的时序信息，限制了重建质量。
计算复杂度高： 虽然引入长程建模（如 Transformer、扩散模型）能提升性能，但通常伴随巨大的计算开销，难以满足实时性要求。
Mamba 的局限性： 新兴的状态空间模型（SSM/Mamba）具有线性复杂度和全局感受野，但将其应用于视频时，传统的扫描机制（如希尔伯特扫描）会导致空间连续性丢失（即扫描路径上的不连续区域），且现有的 Mamba 变体往往通过重复扫描来弥补，导致效率低下。

2. 方法论 (Methodology)

作者提出了 TS-Mamba（Trajectory-aware Shifted Mamba），一种基于轨迹感知移位 SSM 的在线 VSR 网络。其核心流程如下：

2.1 轨迹构建与 Token 选择 (Trajectory Construction & Token Selection)

轨迹生成： 首先构建视频中的运动轨迹，将当前帧的 Token 与历史帧中的 Token 关联。
相似 Token 选择： 基于轨迹，从历史帧中选择与当前帧 Token 最相似的 $s$ 个 Token。这打破了传统方法仅使用单帧的限制，实现了基于轨迹的长程 Token 级聚合。
损失函数监督： 提出了一种轨迹感知损失函数 (Trajectory-aware Loss, $L_{trj}$ )，用于监督轨迹生成过程，确保在训练阶段 Token 选择的准确性。

2.2 轨迹感知移位 Mamba 聚合模块 (TSMA)

这是网络的核心，旨在解决 Mamba 扫描带来的空间不连续性问题：

扫描 - 移位 - 扫描 (Scan-Shift-Scan) 机制： 针对希尔伯特扫描（Hilbert Scanning）在局部窗口内和窗口间产生的不连续区域，设计了移位操作。
移位 SSM 块 (Shifted SSMs Blocks, S-SSMs)：
- 结合四种不同的希尔伯特扫描方向（Scan-1 至 Scan-4）和特定的窗口移位操作（如向上移位 $U(1)$ 、左上移位 $UL(3)$ 等）。
- 设计了**“窗口内补偿分支 (IntraWCB)"和“窗口间补偿分支 (InterWCB)"**。
- 通过并行两个 S-SSMs 块，利用不同的移位组合（例如 $P(1, U(1), 3)$ 和 $P(1, UL(3), 3) $）来最大程度地消除扫描带来的不连续性（消除值$ \delta$ 达到最优）。
SS3D (Temporal Selective Scanning)： 在时间维度上执行基于空间希尔伯特扫描的选择性扫描，将时空相邻像素转换为 1D 序列，实现长程时空特征的捕获。

2.3 网络架构

Token 与轨迹生成： 提取当前帧和历史帧的 Token 及轨迹。
TSMA 模块： 将当前 Token 与选中的历史 Token 拼接，输入 TSMA 模块进行时空聚合。
重建网络： 聚合后的特征与原始 LR 帧分别经过重建网络和双三次上采样，融合输出 SR 帧。

3. 主要贡献 (Key Contributions)

首个基于 SSM 的在线 VSR 模型： TS-Mamba 是第一个利用 Mamba 进行在线 VSR 的模型，能够在 Token 级别聚合来自多帧的长程时空信息，区别于传统 CNN 仅利用单帧的方法。
引入视频轨迹与移位机制： 首次将视频轨迹引入 Mamba 框架以选择最相似 Token；设计了基于希尔伯特扫描和移位操作的移位 SSM 块，有效补偿了扫描损失并增强了 Mamba 的空间连续性。
轨迹感知损失函数： 提出新的损失函数直接监督轨迹生成，优化了 Token 选择精度。
高效性与高性能： 在显著降低计算复杂度的同时，实现了 SOTA 的重建性能。

4. 实验结果 (Results)

在三个广泛使用的 VSR 基准数据集（REDS4, Vid4, Vimeo-90K-T）上进行了评估：

性能表现： 在大多数情况下，TS-Mamba 在 PSNR 和 SSIM 指标上优于现有的 6 种在线 VSR 基准模型（如 BasicVSR++, FDAN, KSNet, TMP 等）。
效率提升：
- 相比 SOTA 方法，MACs（乘加运算数）降低了超过 22.7%。
- 参数量约为 3.0M，与 BasicVSR++* 相当，但性能更优。
- 推理速度达到 33.5 FPS（在 180x320 LR 输入下），满足实时性要求（>24 FPS）。
消融实验： 验证了轨迹生成、轨迹损失、IntraWCB/InterWCB 补偿分支以及移位操作的有效性。移除任何组件都会导致性能下降。
视觉质量： 在纹理细节和动态场景（如汽车纹理）的重建上，TS-Mamba 表现出更清晰的细节和更好的时间一致性。

5. 意义与局限性 (Significance & Limitations)

意义：
- 为在线视频超分辨率提供了一种低复杂度、长程建模的新范式。
- 解决了 Mamba 在图像/视频任务中空间连续性丢失的关键问题，通过移位操作实现了高效补偿。
- 证明了在资源受限的实时应用中，利用轨迹引导的长程信息聚合可以显著提升重建质量。
局限性：
- 在高动态旋转场景（如快速旋转的车轮）下，轨迹估计可能不准确，导致补偿失效，重建效果下降。这是当前基于轨迹方法的共同挑战。

总结： TS-Mamba 通过巧妙结合轨迹引导的 Token 选择和移位增强的状态空间模型，成功在保持极低计算复杂度的同时，实现了长程时空信息的聚合，显著提升了在线视频超分辨率的性能，是实时视频处理领域的一项重要进展。