Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

本文提出了 Prompt-SID,这是一种基于潜在扩散过程生成结构提示、利用自监督下采样对进行训练并结合尺度回放机制的单图像去噪框架,旨在解决现有无监督方法在保留图像结构细节方面的不足。

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 Prompt-SID 的新方法,专门用来给“脏”照片“洗澡”(去噪)。

想象一下,你有一张拍得很模糊、全是雪花点的照片。以前的方法要么需要成千上万张“干净 vs 脏”的配对照片来教 AI 怎么修图(这就像要老师手把手教,太贵太慢),要么就是让 AI 自己瞎猜,结果往往把照片里的细节(比如花瓣的纹理、眼睛的轮廓)给弄丢了,变得像打了马赛克一样模糊。

Prompt-SID 是怎么做的呢?我们可以把它想象成一个“高明的老中医”给照片看病的过程:

1. 核心难题:既要“少看”,又要“全知”

以前的“自学”方法(自监督)为了不让 AI 直接抄袭原图,通常会玩一个“遮眼”游戏:

  • 盲点法(Blind-spot): 让 AI 看照片时,故意把中间那个像素点遮住,让它猜中间是什么。但这就像蒙着眼睛猜东西,容易猜错,而且把很多细节都弄丢了。
  • 裁剪法(下采样): 把照片缩小,只让 AI 看缩小版的图。但这就像把一张高清地图缩成巴掌大,上面的街道名字都看不清了,结构信息全没了。

Prompt-SID 的绝招是: 它不直接让 AI 看缩小的图,而是先给 AI 一个“结构提示卡”(Structural Prompt)。

2. 三大法宝(通俗版)

法宝一:不浪费的“拼图采样法” (Spatial Redundancy Sampling)

以前的方法在把大图变小图时,像扔骰子一样随机扔掉很多像素,太浪费了。
Prompt-SID 发明了一种**“智能拼图”策略。它把大图切成很多小块,每块里有 4 个像素,它只随机扔掉 1 个,保留 3 个。这样既让 AI 有了“猜谜”的空间(防止直接抄袭),又最大限度地保留了原始图片的信息**,没有把重要的细节扔进垃圾桶。

法宝二:神奇的“结构透视镜” (RG-Diffusion)

这是本文最核心的创新。

  • 传统做法: 直接让 AI 去猜大图。
  • Prompt-SID 做法: 它先给 AI 戴上一副“结构透视镜”。
    • 它利用一种叫**“扩散模型”(类似现在很火的 AI 绘画技术)的魔法,把那张缩小、模糊的图,在“大脑”里(潜在空间)重新“脑补”出一张结构清晰、轮廓分明**的“提示卡”。
    • 这张“提示卡”不是具体的像素,而是**“这张图长什么样”的骨架信息**(比如:这里有条线,那里是个圆)。
    • 这就好比你要修复一幅破画,别人先给你看一张清晰的线稿(提示卡),告诉你轮廓在哪,你再根据这个线稿去填色和修补,肯定比瞎猜要准得多。

法宝三: “回炉重造”训练法 (Scale Replay)

这里有个大坑:AI 是在“小图”上练出来的,但我们要它处理“大图”。这就好比让一个在“迷你模型”上练出来的司机,突然去开“真车”,他可能会晕。

  • Prompt-SID 的解决办法: 在训练过程中,它会让 AI 偶尔也看看“真车”(原图)。
  • 它会把 AI 修好的大图,再缩小一下,和之前的小图对比。如果不一样,就告诉 AI:“你刚才在大图上修得不对,要更贴近小图里的规律”。
  • 这就像**“回炉重造”**,强迫 AI 学会把在小图上学到的规律,完美地迁移到大图上,消除了“尺寸差距”带来的生疏感。

3. 最终效果:像变魔术一样

当所有步骤完成后,AI 拿着那张“结构提示卡”(提示),结合它看到的“脏图”,通过一个**“注意力模块”**(就像给 AI 戴上了聚焦眼镜),精准地把那些丢失的细节(比如花瓣的纹理、文字的笔画)给找回来。

总结一下它的厉害之处:

  1. 不用老师教: 不需要成千上万张干净照片,一张脏图就能练。
  2. 细节不丢: 不像以前的方法那样把图弄得模糊不清,它能把边缘和纹理修得很清晰。
  3. 全能选手: 无论是普通的照片噪点、现实世界的相机噪点,甚至是显微镜下的荧光细胞图像,它都能修得非常好。

一句话比喻:
以前的去噪方法像是在**“盲人摸象”,摸到一点猜一点,容易把大象的鼻子猜成蛇;而 Prompt-SID 像是“先给盲人一张大象的线稿图(结构提示),再让他去摸”**,这样他就能准确地知道哪里是鼻子,哪里是耳朵,把大象(照片)完美地复原出来。