Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing

Each language version is independently generated for its own context, not a direct translation.

🌫️ Le Problème : La "Brume" qui gâche tout

Imaginez que vous essayez de conduire une voiture ou de prendre une photo magnifique, mais qu'une épaisse brume (ou du brouillard) recouvre tout. Les couleurs sont ternes, les contours sont flous, et il est difficile de voir ce qui se passe au loin.

En informatique, c'est le même problème : les images prises par des caméras (pour les voitures autonomes, la surveillance, etc.) sont souvent abîmées par la brume. Le but des chercheurs est de créer un "nettoyeur d'images" intelligent capable de retirer cette brume pour retrouver l'image originale, nette et colorée.

🚧 Le Défi : Vitesse contre Précision

Jusqu'à présent, il y avait deux façons principales de nettoyer ces images :

Les méthodes anciennes (comme des filtres à café) : Elles étaient rapides, mais elles rataient souvent les détails complexes.
Les méthodes modernes (les Transformers) : Ce sont des "super-cerveaux" qui voient l'image entière d'un coup. Elles sont très précises, mais elles sont lentes et gourmandes en énergie. C'est comme essayer de nettoyer une maison entière en utilisant un aspirateur industriel : ça marche bien, mais ça fait beaucoup de bruit et ça consomme énormément d'électricité.

L'objectif de ce papier est de créer un nettoyeur qui est aussi précis que les super-cerveaux, mais aussi rapide et léger qu'un petit robot.

💡 La Solution : Fourier-RWKV (Le "Super-Détective" à 3 États)

Les auteurs ont créé un nouveau modèle appelé Fourier-RWKV. Imaginez-le comme un détective privé qui possède trois super-pouvoirs (ou "états de perception") pour comprendre la brume. Au lieu d'attaquer le problème d'un seul coup, il utilise trois stratégies différentes qui travaillent ensemble.

1. Le Super-Pouvoir de l'Adaptation Locale : "Le Caméléon" (DQ-Shift)

Le problème : La brume n'est pas partout la même. Parfois, elle est fine, parfois elle est épaisse, parfois elle est concentrée sur un coin de l'image. Les méthodes rigides ne s'adaptent pas.
L'analogie : Imaginez un caméléon qui change de couleur selon l'environnement.
Comment ça marche : Ce module (appelé DQ-Shift) permet au modèle de changer sa "vision" dynamiquement. Si la brume est épaisse à gauche, il se concentre plus à gauche. Il ajuste sa "zone de vue" (son champ réceptif) pour s'adapter aux irrégularités de la brume, comme un caméléon qui s'adapte à son décor.

2. Le Super-Pouvoir de la Vue Globale : "Le Spectre Magique" (Fourier Mix)

Le problème : Pour enlever la brume, il faut comprendre l'image dans son ensemble (les grandes structures), pas juste les petits détails. Les méthodes rapides oublient souvent le "grand tableau".
L'analogie : Imaginez que vous écoutez une symphonie.
- Le domaine spatial (la vue normale), c'est comme écouter chaque instrument un par un. C'est précis, mais lent pour comprendre la mélodie globale.
- Le domaine fréquentiel (Fourier), c'est comme voir la partition complète de la musique d'un seul coup.
Le secret : Les chercheurs ont découvert que la brume se cache principalement dans les "basses fréquences" (les tons graves de l'image), tandis que les détails importants (les contours) sont dans les "hautes fréquences".
Comment ça marche : Le module Fourier Mix transforme l'image en "partition musicale". Il retire les "notes de brume" (les basses fréquences indésirables) tout en gardant la mélodie (l'image claire). Cela permet de voir l'image entière instantanément, sans perdre de temps à analyser pixel par pixel.

3. Le Super-Pouvoir de la Cohérence : "Le Pont Sémantique" (SBM)

Le problème : Quand on nettoie une image, on utilise souvent deux étapes : une pour analyser (l'encodeur) et une pour reconstruire (le décodeur). Souvent, ces deux étapes ne se comprennent pas bien, ce qui crée des artefacts (des taches bizarres).
L'analogie : Imaginez deux traducteurs qui travaillent sur un livre. L'un traduit le début, l'autre la fin. S'ils ne se parlent pas, le livre final sera incohérent. Il faut un pont entre eux.
Comment ça marche : Le module SBM (Semantic Bridge) agit comme ce pont. Il compare ce que l'analyseur a vu avec ce que le reconstructeur doit faire. Il ajuste les "kernels" (les outils de nettoyage) en temps réel pour s'assurer que les deux parties racontent la même histoire, évitant ainsi les erreurs et les taches.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur invention sur de nombreuses images, aussi bien simulées que réelles (avec de vraies photos de brouillard).

Qualité : Le résultat est magnifique. L'image est plus nette, les couleurs sont plus vraies, et les détails (comme les feuilles d'un arbre ou les lettres d'un panneau) sont parfaitement restaurés.
Vitesse : C'est là que ça devient impressionnant. Leur modèle est beaucoup plus rapide et consomme beaucoup moins d'énergie que les meilleurs modèles actuels (les Transformers).
L'équilibre : C'est le "Saint Graal" : une qualité de cinéma avec la vitesse d'un clip vidéo.

🎯 En Résumé

Fourier-RWKV, c'est comme donner à un nettoyeur d'images trois outils magiques :

Des yeux qui s'adaptent à la forme de la brume (Caméléon).
Une vue en rayons X qui voit la structure globale de l'image (Spectre).
Un chef d'orchestre qui assure que tout le monde joue la même partition (Pont).

Le résultat ? Une technologie qui permet de voir clair, même dans les conditions les plus difficiles, sans avoir besoin d'un super-ordinateur pour le faire. C'est une avancée majeure pour les voitures autonomes, les drones et la photographie du futur.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le déhazing (débruitage de la brume) d'images est crucial pour la perception visuelle robuste dans des applications comme la conduite autonome ou la ré-identification de personnes. Cependant, ce problème reste extrêmement difficile dans des conditions réelles de brume non uniforme, où la densité de la brume varie localement, entraînant des distorsions de couleur, un flou des textures et une perte de contraste.

Les approches existantes présentent des limitations majeures :

Méthodes basées sur des priors manuels : Elles échouent souvent à généraliser dans des environnements réels complexes.
Réseaux de neurones convolutifs (CNN) : Bien qu'efficaces, leur champ réceptif limité empêche la modélisation des dépendances à long terme nécessaires pour estimer la brume globale.
Transformers : Ils excellent à capturer le contexte global via l'attention, mais leur complexité computationnelle quadratique ( $O(N^2)$ ) les rend trop coûteux pour un déploiement temps réel sur des images haute résolution.
Modèles RWKV (Vision-RWKV) : Bien qu'ils offrent une complexité linéaire, leur application directe au déhazing souffre de rigidité dans l'adaptation aux distributions irrégulières de brume, d'une dégradation de l'information à longue portée dans l'espace, et d'un décalage sémantique entre l'encodeur et le décodeur.

2. Méthodologie : Fourier-RWKV

Les auteurs proposent Fourier-RWKV, un cadre de déhazing basé sur le paradigme de la Perception Multi-États (Multi-State Perception). L'architecture repose sur une structure encodeur-décodeur symétrique (type U-Net) utilisant des blocs FRWKV qui intègrent trois états perceptifs complémentaires pour modéliser la dégradation de la brume avec une complexité linéaire.

A. Perception Spatiale Déformable (DQ-Shift)

Pour surmonter la rigidité des opérations spatiales fixes (comme le Q-Shift original), les auteurs introduisent l'opération Deformable Quad-directional Token Shift (DQ-Shift).

Fonctionnement : Elle combine des décalages fixes (quatre directions) avec des décalages dynamiques prédits par un CNN léger conditionné par l'entrée.
Objectif : Ajuster dynamiquement le champ réceptif pour s'adapter aux variations locales de densité de brume et aux structures irrégulières.

B. Perception dans le Domaine Fréquentiel (Fourier Mix Block)

Ce bloc transforme le mécanisme d'attention WKV (Receptance Weighted Key Value) du domaine spatial vers le domaine de Fourier.

Justification physique : La brume affecte principalement le spectre d'amplitude (basses fréquences), tandis que le spectre de phase préserve l'intégrité structurelle.
Mécanisme :
1. Les caractéristiques clés ( $K$ ) et valeurs ( $V$ ) sont transformées via FFT (Transformée de Fourier Rapide).
2. Les points spectraux sont triés par distance depuis l'origine pour former une séquence.
3. Un mécanisme d'attention Bi-WKV (bidirectionnel) est appliqué dans le domaine fréquentiel pour capturer les dépendances globales sans dégradation d'information.
4. Double porte (Dual-domain gating) : Une porte spatiale ( $R_s$ ) préserve la sensibilité locale, tandis qu'une porte fréquentielle ( $R_{fft}$ ) régule les dépendances à long terme. Le résultat est transformé inversement (IFFT) et fusionné.

C. Perception des Relations Sémantiques (Semantic Bridge Module - SBM)

Pour combler l'écart sémantique entre les étapes de codage et de décodage (source d'artefacts), le module SBM est intégré dans les connexions de saut (skip connections).

Fonctionnement : Il utilise la Fusion de noyaux sémantiques dynamiques (DSK-Fusion).
1. Il calcule une matrice de similarité sémantique entre les caractéristiques de l'encodeur et du décodeur.
2. Cette matrice génère des noyaux de convolution dynamiques multi-échelles ( $3\times3, 5\times5, 7\times7$ ).
3. Un module de sélection (KSFU) fusionne ces caractéristiques enrichies.
4. Remplacement du composant DC : Le composant continu (DC) des caractéristiques de l'encodeur est remplacé par la version sémantiquement alignée pour corriger la brume globale avant la fusion finale.

D. Fonction de Perte

L'optimisation utilise une fonction de perte double domaine combinant l'erreur $L1$ dans l'espace spatial et dans le domaine fréquentiel, assurant à la fois la fidélité des pixels et la cohérence structurelle globale.

3. Contributions Clés

Premier réseau de déhazing Multi-États basé sur RWKV : Fourier-RWKV est le premier modèle à combiner l'efficacité linéaire de RWKV avec une modélisation multi-états (spatiale, fréquentielle, sémantique) pour la restauration d'images.
Opération DQ-Shift : Permet une perception spatiale adaptative aux distributions de brume irrégulières.
Bloc Fourier Mix : Étend le mécanisme d'attention WKV au domaine de Fourier, résolvant le problème de dégradation de l'information à longue portée tout en exploitant les propriétés physiques de la brume.
Module SBM : Assure l'alignement sémantique entre l'encodeur et le décodeur, réduisant les artefacts et améliorant la cohérence structurelle.
Efficacité et Performance : Le modèle atteint des performances de pointe (SOTA) avec une complexité computationnelle réduite, offrant un compromis optimal entre qualité de restauration et coût calculatoire.

4. Résultats Expérimentaux

Les expériences ont été menées sur des ensembles de données synthétiques (SOTS-Indoor/Outdoor, RESIDE) et réels (Dense-Haze, NH-HAZE).

Performance Quantitative :
- Sur SOTS-Indoor, Fourier-RWKV obtient un PSNR de 41,60 dB et un SSIM de 0,996, surpassant la plupart des méthodes CNN et Transformer, et se classant juste derrière PGH2Net (mais avec moins de paramètres et de FLOPs).
- Sur SOTS-Outdoor, il bat tous les autres modèles avec un PSNR de 39,76 dB (+2,05 dB par rapport au précédent meilleur).
- Sur les données réelles (NH-HAZE), il améliore le PSNR de 0,35 dB et le SSIM de 0,03 par rapport à l'état de l'art, démontrant une forte capacité de généralisation sur la brume non uniforme.
Efficacité Computationnelle :
- Le modèle possède environ 5,31 M de paramètres et 15,69 G de FLOPs (sur des patches 256x256).
- Il est significativement plus léger et rapide que les modèles basés sur Transformers (comme DeHamer ou SwinIR) tout en offrant une qualité supérieure.
Analyse Qualitative : Les images restaurées montrent une meilleure récupération des détails fins, une absence d'artefacts de flou et une meilleure fidélité des couleurs, même dans des scènes à fort contraste et à profondeur de champ variable.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la restauration d'images :

Paradigme Économique : Il démontre qu'il est possible de dépasser les modèles lourds (Transformers) en utilisant une architecture linéaire (RWKV) enrichie par des connaissances physiques (domaine fréquentiel) et sémantiques.
Modélisation Physique : L'intégration explicite du domaine de Fourier pour traiter la brume (en séparant amplitude et phase) offre une approche plus robuste que les méthodes purement spatiales.
Applicabilité Réelle : Grâce à sa faible complexité computationnelle, Fourier-RWKV ouvre la voie au déploiement temps réel de systèmes de déhazing sur des dispositifs embarqués (véhicules autonomes, drones), là où les méthodes actuelles sont trop lourdes.

En conclusion, Fourier-RWKV établit un nouvel état de l'art en combinant efficacité computationnelle et haute fidélité de restauration, validant le potentiel des modèles de type "State Space" pour les tâches de vision par ordinateur complexes.