Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 Fourier-RWKV 的新技术，专门用来给“雾蒙蒙”的照片“洗个澡”，让它们变得清晰透亮。

想象一下，你站在大雾天里拍照，照片里全是灰蒙蒙的雾气，看不清远处的山，也看不清近处的树叶。以前的方法要么算得太慢（像老式计算器），要么看不清细节（像用钝刀切菜）。而这篇论文提出的新方法，就像是一个拥有“三头六臂”的超级修图大师，既快又准。

我们可以把这项技术拆解成三个神奇的“超能力”：

1. 第一招：会“变形”的望远镜（空间感知）

以前的痛点：传统的修图工具像是一个固定的望远镜，不管雾是浓是淡，它都只用同样的方式看。如果雾在左边很浓，右边很淡，它就显得很笨拙，要么把浓雾没洗干净，要么把干净的地方洗坏了。
Fourier-RWKV 的绝招：它戴上了一副智能变色眼镜（DQ-Shift 技术）。这副眼镜能根据雾的浓度自动调整“焦距”和“视野”。
- 比喻：就像你在开车，遇到浓雾路段，你会自动放慢速度、打开雾灯、调整雨刮器；遇到晴天路段，你就恢复正常。这个模型能根据图片里每一块区域的雾气情况，动态地调整它的“观察范围”，哪里雾重就重点照顾哪里，哪里清晰就保持原样。

2. 第二招：透视“灵魂”的 X 光眼（频域感知）

以前的痛点：普通的修图是在“像素”层面打转，就像在沙滩上数沙子，很难看清整体的结构。而且，雾气在图片里往往表现为一种整体的“灰度”，在普通视角下很难和物体本身分开。
Fourier-RWKV 的绝招：它拥有一双X 光眼，能直接看到图片的“灵魂频率”（Fourier Mix 技术）。
- 比喻：想象一张照片是一首交响乐。雾气就像是背景里一直嗡嗡作响的低音噪音，而清晰的物体是美妙的旋律。
- 普通方法是在乐谱上一个个音符地改，效率低且容易改错。
- 这个方法直接把乐谱变成了频谱图，它发现：雾气主要藏在“低音区”（低频），而物体的轮廓和细节藏在“高音区”（高频）和相位里。于是，它直接按住“低音区”的噪音，把“高音区”的旋律保留下来，甚至把低音区里被雾气掩盖的微弱信号也提取出来。这样，它就能在几秒钟内把整张图的“灵魂”洗干净，而且不会让远处的物体变模糊。

3. 第三招：完美的“翻译官”（语义桥接）

以前的痛点：很多修图模型像是一个“ Encoder-Decoder"（编码器 - 解码器）流水线。编码器把图片压缩成“摘要”，解码器再把它还原。但在这个过程中，经常会出现“传话游戏”的误差：编码器说“这是一棵树”，解码器还原时可能变成了“一丛灌木”，导致还原出来的图有奇怪的伪影或错位。
Fourier-RWKV 的绝招：它在编码器和解码器之间架起了一座智能翻译桥（SBM 模块）。
- 比喻：这就好比在两个部门之间派了一位超级联络员。当编码器把“树”的信息传过去时，联络员会立刻检查：“等等，解码器那边好像理解错了，我根据上下文动态调整一下，确保你拿到的就是最准确的‘树’的信息。”
- 它通过一种“动态核融合”技术，确保还原出来的图片，每一根树枝、每一片叶子都严丝合缝，不会出现那种“边缘模糊”或“颜色怪异”的假象。

总结：为什么它这么厉害？

以前的方法就像是用笨重的卡车（Transformer）运货，虽然能装很多（全局视野好），但太慢太费油（计算量大），不适合实时处理。
而 Fourier-RWKV 就像是一辆高科技的电动摩托车：

快：它的计算量是线性的（像摩托车一样轻便），处理速度极快，适合实时应用。
准：它结合了“变形视野”（适应局部）、"X 光透视”（全局去雾）和“智能翻译”（细节对齐）三种能力。
稳：无论是在实验室合成的雾气，还是现实中那种忽浓忽淡、分布不均匀的复杂大雾，它都能处理得游刃有余。

一句话概括：
Fourier-RWKV 就是一个既懂局部细节、又懂全局结构，还能实时动态调整策略的“去雾超人”，它让给照片去雾这件事，变得既快又好，就像给照片做了一次完美的“深层清洁 SPA"。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing》的详细技术总结：

1. 研究背景与问题 (Problem)

**图像去雾（Image Dehazing）对于自动驾驶、行人重识别等视觉感知任务至关重要。然而，现实世界中的非均匀雾霾（Non-uniform Haze）**条件使得去雾极具挑战性。

现有方法的局限性：
- 传统 CNN： 感受野有限，难以建模长距离依赖，导致全局雾霾估计不准确。
- Transformer： 虽然能捕捉全局上下文，但其二次方计算复杂度（ $O(N^2)$ ）限制了其在高分辨率图像上的实时部署。
- Vision-RWKV（现有线性模型）： 虽然具有线性复杂度，但直接应用于去雾存在三个主要缺陷：
  1. 固定的空间移位操作（Q-Shift）缺乏对不规则雾霾分布的适应性。
  2. 空间域的序列状态建模存在长距离信息衰减，影响全局一致性。
  3. 在 U-Net 编解码结构中，编码器和解码器之间存在语义鸿沟，导致特征未对齐和伪影。

2. 核心方法论 (Methodology)

作者提出了 Fourier-RWKV，一种基于**多状态感知（Multi-State Perception）**范式的线性复杂度去雾框架。该模型通过协同整合三种不同的感知状态来解决上述问题：

(1) 空间形态感知 (Spatial-form Perception)

模块： 可变形四向 Token 移位 (Deformable Quad-directional Token Shift, DQ-Shift)。
机制： 在原始固定移位的基础上，引入轻量级门控 CNN 预测动态偏移量。
作用： 根据局部雾霾密度和结构变化，动态调整感受野，克服固定移位的刚性，更好地适应非均匀雾霾。

(2) 频域感知 (Frequency-domain Perception)

模块： Fourier Mix 块。
机制：
- 将 RWKV 核心的 WKV 注意力机制从空间域扩展到傅里叶域。
- 利用傅里叶变换（FFT）将 Key 和 Value 映射到频域。
- 提出双域门控机制（Dual-domain Gating）：Receptance ( $R_s$ ) 在空间域作为门控保留空间敏感性，而 Fourier-domain Gate ( $R_{fft}$ ) 在频域调节长距离依赖。
作用：
- 利用傅里叶域的全局统计特性自然建立长距离依赖，解决空间建模中的信息衰减问题。
- 利用雾霾主要编码在幅度谱（Amplitude）而结构保留在相位谱（Phase）的物理先验，有效分离雾霾干扰。

(3) 语义关系感知 (Semantic-relation Perception)

模块： 语义桥接模块 (Semantic Bridge Module, SBM)。
机制：
- 计算编码器与解码器特征之间的语义相似性矩阵。
- 生成动态语义核 (Dynamic Semantic Kernels)，通过多尺度卷积增强编码器特征。
- 利用核选择融合单元 (KSFU) 自适应融合多尺度特征。
- 通过**直流分量替换（DC Component Replacement）**策略，将融合后的语义特征替换编码器特征的直流分量，实现语义对齐。
作用： 消除编解码器之间的语义鸿沟，抑制伪影，确保特征在跨阶段传输时的一致性。

整体架构

模型采用对称的编解码器结构，包含四个分辨率层级。每个层级堆叠 FRWKV 块（包含 Fourier Mix 和 Channel Mix），并在跳跃连接中嵌入 SBM。

3. 主要贡献 (Key Contributions)

首个基于线性复杂度 RWKV 的多状态感知去雾网络： 提出了 Fourier-RWKV，建立了高效高质量图像恢复的新范式。
DQ-Shift 操作： 实现了针对不规则雾霾的自适应空间感知。
Fourier Mix 块： 将 WKV 注意力机制扩展至频域，从本质上捕捉全局依赖并缓解空间衰减。
SBM 模块： 利用 DSK-Fusion 机制对齐编解码特征，确保语义一致性并减少伪影。
性能突破： 在多个基准测试中超越了 SOTA 方法，同时显著降低了计算开销。

4. 实验结果 (Results)

数据集： 在合成数据集（SOTS-Indoor, SOTS-Outdoor）和真实世界数据集（Dense-Haze, NH-HAZE）上进行了广泛测试。
定量指标：
- 在 SOTS-Outdoor 上，PSNR 达到 39.76 dB，优于所有对比模型（比第二名高 2.05 dB）。
- 在 NH-HAZE（非均匀雾霾）上，PSNR 达到 21.01 dB，SSIM 达到 0.83，均取得最佳性能。
- 在 SOTS-Indoor 上，PSNR 为 41.60 dB，仅次于 PGH2Net（0.1 dB 差距），但计算效率更高。
计算效率：
- 参数量约为 5.31 M，FLOPs 为 15.69 G。
- 相比线性注意力模型 MAIR，参数量仅增加 1.91M，但 FLOPs 降低了至其 65.29%。
定性分析： 视觉结果显示，Fourier-RWKV 在去除浓雾、恢复纹理细节以及保持深度结构方面表现优异，特别是在非均匀雾霾场景下，伪影更少，色彩保真度更高。
消融实验： 验证了 DQ-Shift、Fourier Mix 和 SBM 三个核心模块的独立贡献及协同效应。例如，仅引入 DQ-Shift 和 Fourier Mix 即可将 PSNR 提升近 2.4 dB。

5. 意义与价值 (Significance)

理论创新： 成功将频域学习（Frequency-domain learning）与线性注意力机制（RWKV）结合，解决了传统线性模型在去雾任务中全局建模能力不足的问题。
实际应用： 提供了一种在恢复质量与计算效率之间取得极佳平衡的解决方案，使其非常适合在资源受限的设备上进行实时去雾部署。
范式扩展： 不仅推动了去雾技术的发展，也为 Vision-RWKV 框架在视觉任务中的扩展提供了新的思路，展示了多状态感知（空间 + 频域 + 语义）在复杂图像恢复任务中的巨大潜力。

代码地址： https://github.com/Dilizlr/Fourier-RWKV