Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

本文提出了 Frames2Residual (F2R) 框架,通过时空解耦策略将自监督视频去噪分为盲时域一致性建模与非盲空域纹理恢复两个阶段,有效解决了现有方法因中心像素掩码导致的纹理丢失问题,从而在 sRGB 和 RAW 视频基准上显著提升了去噪性能。

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Frames2Residual (F2R) 的新方法,专门用来给模糊、充满噪点的视频“整容”,而且它不需要任何“标准答案”(即不需要干净的视频作为训练参考),完全靠视频自己来学习。

为了让你轻松理解,我们可以把视频去噪想象成**“修复一幅被泼了墨水的动态画卷”**。

1. 以前的方法遇到了什么麻烦?

在 F2R 出现之前,现有的自监督去噪方法(比如 Video BSN)面临一个**“死结”**:

  • 既要又要的矛盾:为了去除噪点,算法必须假设“当前这一帧的像素是脏的,不能直接看它”,只能看它周围的邻居(时空邻域)来猜它原本长什么样。这就像蒙着眼睛猜字,虽然猜得准(去噪干净),但容易把原本清晰的笔画(纹理细节)也给抹平了,导致画面变得模糊。
  • 强行对齐的副作用:另一种方法试图把前后几帧视频强行“对齐”来互相参考。但这就像把两张没拍稳的照片强行拼在一起,如果手抖了(运动估计不准),拼出来的画面就会出现鬼影或撕裂。

简单说:以前的方法要么为了去噪把细节弄丢了,要么为了保留细节引入了新的错误。


2. F2R 的绝招:把“时间”和“空间”拆开练

F2R 的核心思想是**“分步走,各司其职”。它把修复过程拆成了两个阶段,就像先打地基,再精装修**。

第一阶段:蒙眼猜轮廓(盲时间估计)

  • 比喻:想象你是一位蒙眼的雕塑家。你面前有一堆乱糟糟的泥巴(噪点视频),但你被禁止直接看中间那块泥巴(中心帧)。你只能观察周围几秒的泥巴形状,凭借对“时间连续性”的直觉,去推测中间这块泥巴大概的轮廓在哪里。
  • 做法
    • 算法完全不看当前这一帧的像素,只利用前后帧的信息。
    • 它利用预训练好的“图片去噪器”先给每一帧打个底(把大块的结构先修好),然后只专注于计算**“前后帧之间的一致性”**。
    • 结果:得到了一版非常稳定、没有噪点,但细节模糊的视频(就像一张只有轮廓的素描)。这保证了画面不会抖动,时间上是连贯的。

第二阶段:睁眼补细节(非盲空间细化)

  • 比喻:现在,蒙眼布摘掉了!你手里拿着刚才那个稳定的“素描底稿”,现在你可以睁大眼睛看中间那帧原本被遮住的地方了。你的任务不再是猜轮廓,而是把刚才被抹掉的精细纹理(比如衣服的褶皱、文字的笔画)给“补”回来
  • 做法
    • 算法把第一阶段得到的“稳定底稿”和“原始噪点帧”结合起来。
    • 它不再需要猜了,因为它知道底稿是对的,现在只需要计算**“底稿”和“真实画面”之间缺了哪些高频细节(残差)**。
    • 利用一个特殊的“变形对齐模块”,它像高精度的修图师一样,把前后帧的纹理精准地“移植”回来,填补细节。
    • 结果:在保持第一阶段那种“稳如泰山”的时间稳定性的同时,找回了清晰锐利的纹理细节

3. 为什么要这么麻烦?(核心创新点)

这就好比装修房子

  • 以前的方法:试图让同一个装修队,一边在摇晃的脚手架上(运动模糊)工作,一边既要保证房子不歪(时间稳定),又要保证墙纸花纹完美(空间细节)。结果往往是顾此失彼。
  • F2R 的方法
    1. 先请结构工程师(第一阶段):不管墙纸多花哨,先把房子的梁柱、地基打稳,确保房子不歪(时间一致性)。
    2. 再请精装修师(第二阶段):地基稳了,现在可以大胆地往墙上贴最复杂的壁纸、画最精细的画(空间纹理恢复),不用担心房子会塌。

这种**“时空解耦”**(把时间和空间分开处理)的策略,完美解决了“既要去噪又要保细节”的矛盾。

4. 效果怎么样?

论文在多个测试集(包括合成的噪点和真实的相机噪点)上进行了测试:

  • 比现有方法更强:在去除噪点的同时,它保留的细节比目前最先进的自监督方法都要多。
  • 甚至能打败有监督方法:在某些测试中,它不需要任何“标准答案”就能达到甚至超过那些需要大量干净视频训练的算法的效果。
  • 视觉表现:看论文里的对比图,别人的视频去噪后,文字是糊的,衣服纹理是平的;而 F2R 处理后的视频,文字清晰可辨,衣服褶皱分明,而且画面完全不抖动。

总结

Frames2Residual (F2R) 就像是一个分两步走的智能修复师

  1. 第一步:闭着眼,只凭直觉把视频的**“骨架”**(时间稳定性)搭稳,确保不抖、不糊。
  2. 第二步:睁开眼,拿着搭好的骨架,精准地把**“血肉”**(空间纹理细节)补回去。

通过这种“先稳后细”的策略,它成功解决了视频去噪中长久以来的难题,让模糊的视频重新变得清晰、稳定且充满细节。