FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring

本文提出了 FideDiff,一种通过重定义运动去模糊为扩散过程并训练一致性模型来实现单步高保真去模糊的新型扩散模型,其结合 Kernel ControlNet 与自适应步长预测,在保持推理高效的同时显著提升了图像恢复质量。

Xiaoyang Liu, Zhengyan Zhou, Zihang Xu, Jiezhang Cao, Zheng Chen, Yulun Zhang

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FideDiff 的新模型,它的任务是把模糊的照片变清晰(去模糊),而且做得非常快、非常真实。

为了让你轻松理解,我们可以把这张模糊的照片想象成一杯被搅浑的牛奶,而 FideDiff 的任务就是瞬间把这杯牛奶变回纯净的牛奶

以下是用通俗语言和比喻对这篇论文的解读:

1. 现在的难题:要么太慢,要么太假

以前的去模糊技术(比如 CNN 或 Transformer 模型)就像是一个笨拙的修图师

  • 传统方法:修图师很努力,能修得挺快,但有时候修出来的细节是“脑补”的,不够真实(比如把模糊的树叶修成了不存在的形状)。
  • 扩散模型(Diffusion Models):这是一种更高级的 AI,像是一个天才画家。它见过世界上所有的照片,所以修出来的图非常逼真,很有艺术感。
    • 缺点:这个天才画家太慢了!他需要画几十甚至上百步才能把图修好(就像画家要一层层上色,每层都要等干透)。而且,为了追求“好看”,他有时会为了艺术效果牺牲“真实度”(比如把模糊的招牌修得字很清晰,但字的内容却改错了)。

FideDiff 的目标:既要有天才画家的真实感,又要像闪电一样(一步到位),还要保证字字对应,绝不瞎编

2. 核心魔法:时间一致性训练(Time-Consistency)

这是 FideDiff 最聪明的地方。

  • 以前的做法:把模糊照片扔给 AI,AI 猜一个结果。如果模糊程度不同,AI 可能得重新猜。

  • FideDiff 的做法
    想象一下,你有一组照片,从完全清晰(第 0 秒)到极度模糊(第 10 秒),中间是逐渐变糊的过程。
    以前的 AI 可能会把“第 5 秒的模糊图”和“第 8 秒的模糊图”当成完全不同的任务来处理。
    FideDiff 告诉 AI:“不管这张图是第 5 秒糊的,还是第 8 秒糊的,它们原本都是同一张清晰的照片!"

    它强迫 AI 学习一种**“时间一致性”**:无论输入是哪种程度的模糊,AI 都要能直接“穿越”回那个唯一的、原本清晰的画面。

    • 比喻:就像你不管是从第 1 层楼梯摔下来,还是从第 10 层摔下来,FideDiff 都能直接把你瞬移回你原本站立的“地面”(清晰原图),而不是让你一步步爬楼梯(一步步去噪)。

3. 两大创新工具

为了让这个“瞬移”更准,作者给 AI 配了两件神器:

A. 模糊核控制网 (Kernel ControlNet) —— “侦探眼镜”

  • 问题:模糊是因为相机抖动还是物体运动?抖动的方向是横着还是竖着?
  • 解决:FideDiff 戴上了一副“侦探眼镜”。它先快速分析模糊照片,猜出当时是怎么糊的(比如:是向左甩了一下)。
  • 作用:它把这个“模糊原因”作为线索,直接告诉主模型:“嘿,这张图是因为向左甩才糊的,所以还原时要往右补!”这让还原过程更精准,不会瞎猜。

B. 自适应时间预测 (Adaptive Timestep Prediction) —— “智能遥控器”

  • 问题:每张图糊的程度不一样,有的轻,有的重。如果都用同一个“强力模式”去修,轻的会修过头,重的修不够。
  • 解决:FideDiff 有一个智能遥控器。在修图前,它先看一眼照片,自动判断:“这张图糊得比较轻,只需要按 1 档;那张图糊得厉害,需要按 5 档。”
  • 作用:它让 AI 能灵活应对各种情况,不需要人工去设置参数。

4. 成果如何?

  • 速度:以前扩散模型修一张图要画 50 步(像走迷宫),FideDiff 只要1 步(像坐电梯直达)。速度提升了十几倍。
  • 质量:它修出来的图,不仅看起来清晰,而且细节和原图一模一样(比如车牌号、文字、纹理),没有那种“看着像但其实是假的”幻觉。
  • 通用性:在真实的户外场景(比如风吹树叶、车灯拖影)中,它比以前的老方法都要好,而且能处理以前搞不定的复杂情况。

总结

FideDiff 就像是一个拥有“时间回溯”超能力的修图大师
它不再需要一步步地“擦除”模糊,而是通过理解模糊是如何产生的,直接一键还原到照片最原本、最清晰的样子。它既保留了 AI 生成图像的高画质,又解决了 AI 以前“太慢”和“容易瞎编”的两大毛病,让这项技术真正能用在手机相册、监控修复等实际场景中。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →