Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Each language version is independently generated for its own context, not a direct translation.

🌊 Le Problème : La "Soupe" Sous-Marine

Imaginez que vous plongez sous l'eau. Ce que vous voyez n'est pas aussi clair que dans un aquarium. L'eau agit comme un filtre sale : elle avale la lumière, la dévie (comme des particules de poussière dans un rayon de soleil) et donne aux images une teinte verte ou bleue terne. C'est comme essayer de lire un livre à travers un brouillard épais et coloré.

Les scientifiques essaient depuis longtemps de "nettoyer" ces photos pour la recherche marine, l'archéologie ou les robots sous-marins. Mais les méthodes actuelles ont deux gros défauts :

Les anciennes méthodes sont comme des règles rigides : elles fonctionnent bien dans un cas précis, mais échouent dès que l'eau change de couleur ou de profondeur.
Les nouvelles méthodes (Intelligence Artificielle) sont comme des élèves qui apprennent par cœur : elles ont besoin de milliers d'exemples parfaits pour apprendre, mais il y a très peu de "vraies" photos sous-marines de haute qualité disponibles.

💡 La Solution : Le "Super-Héros" PSG-UIENet

Les auteurs de cette étude ont créé un nouveau système intelligent appelé PSG-UIENet. Pour le comprendre, imaginons qu'il soit un chef cuisinier qui doit réparer un plat gâché (l'image sous-marine).

Ce chef utilise deux ingrédients magiques :

La Physique (La recette de base) :
Au lieu de deviner au hasard, le chef connaît les lois de la lumière (la théorie de Retinex). Il sait que l'image est un mélange de "lumière ambiante" (le brouillard) et de "réflexion" (le vrai objet).
- L'analogie : C'est comme si le chef savait exactement comment retirer la vapeur d'une casserole pour voir la soupe en dessous, sans avoir besoin d'avoir déjà vu cette casserole spécifique.
Le Langage (Le guide du client) :
C'est ici que ça devient révolutionnaire. Le chef demande au client : "À quoi devrait ressembler ce plat ?"
Au lieu de juste regarder l'image, le système utilise un modèle de langage (comme un chatbot très intelligent) pour lire une description textuelle de la scène (ex: "Un récif de corail coloré avec des poissons rouges").
- L'analogie : Imaginez que vous nettoyez une photo floue d'un chat. Si vous dites à l'IA "C'est un chat noir avec des yeux verts", elle ne va pas deviner que c'est un chien ou un chat blanc. Le texte agit comme une boussole qui guide l'IA pour qu'elle ne s'égare pas.

🛠️ Comment ça marche ? (Les 3 Étapes)

Le système fonctionne en trois étapes clés, comme une équipe de réparation :

Le "Détecteur de Lumière" (Estimateur sans préjugés) :
D'abord, le système analyse l'image pour voir où la lumière manque ou où elle est trop forte. Il ne se fie pas à des règles fixes, il "sent" la lumière comme un humain le ferait, pour éclaircir la zone sombre.
Le "Traducteur" (Aligneur Texte-Image) :
Ensuite, il prend la description textuelle (ex: "coraux bleus") et la transforme en une carte mentale que l'image peut comprendre. Il s'assure que le texte et l'image parlent le même langage.
Le "Restaurateur" (Le grand chef) :
C'est le cœur du système. Il utilise une astuce géniale : il cache aléatoirement des morceaux de l'image (comme un puzzle dont on a retiré des pièces) et demande au système de les deviner en se basant sur la description textuelle.
- L'analogie : C'est comme si vous deviez reconstruire un mur de briques cassées, mais on vous donne le plan architectural (le texte) pour savoir exactement quelle couleur et quelle forme de brique remettre à chaque endroit. Cela force l'IA à comprendre le sens de l'image, pas juste à lisser les pixels.

📚 La Grande Innovation : Le Nouveau Livre de Recettes

Avant cette étude, il n'existait pas de "livre de recettes" (base de données) qui contenait à la fois :

La photo abîmée.
La photo parfaite.
La description textuelle de la scène.

Les chercheurs ont donc créé LUIQD-TD, une immense bibliothèque de 6 418 triplets (Photo abîmée + Photo parfaite + Texte). C'est comme si, pour la première fois, on avait appris à un robot non seulement à voir, mais aussi à lire ce qu'il voit.

🏆 Le Résultat

Quand ils ont testé ce système contre 15 autres méthodes de pointe (les "champions" actuels), le PSG-UIENet a gagné ou égalé les meilleurs sur presque tous les fronts.

Les images sont plus nettes.
Les couleurs sont plus naturelles (pas de vert bizarre).
Et surtout, le système comprend mieux ce qu'il regarde grâce au texte.

En Résumé

Cette recherche est comme donner des lunettes de réalité augmentée à une IA. Au lieu de seulement regarder une photo sous-marine floue, l'IA peut maintenant "lire" une description de ce qu'elle devrait voir, et utiliser les lois de la physique pour réparer l'image avec une précision incroyable. C'est un grand pas vers des robots sous-marins plus intelligents et des explorations océaniques plus claires ! 🐠🤖📸

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les images sous-marines souffrent souvent d'une dégradation sévère due aux propriétés optiques uniques de l'eau (absorption, diffusion, particules en suspension). Cela se traduit par :

Une distorsion des couleurs (teintes bleues ou vertes).
Un faible contraste.
Une visibilité réduite.

Les méthodes existantes d'amélioration d'images sous-marines (UIE) se divisent en deux catégories, chacune présentant des limites :

Méthodes basées sur des priors physiques : Elles reposent sur des hypothèses rigides (ex: Dark Channel Prior, théorie de Retinex classique). Bien qu'interprétables, elles manquent d'adaptabilité face à des environnements sous-marins variés et complexes.
Méthodes basées sur l'apprentissage (Deep Learning) : Elles apprennent des mappings complexes à partir de données. Cependant, elles souffrent souvent d'un manque de données réelles annotées de haute qualité et d'une faible capacité de généralisation. De plus, les jeux de données actuels sont unimodaux (images uniquement) et ne tirent pas parti des informations sémantiques de haut niveau.

Le défi principal : Comment combiner la robustesse des modèles physiques (comme la théorie de Retinex) avec la richesse sémantique du langage naturel pour améliorer la restauration d'images, tout en palliant le manque de données multimodales (image-texte) spécifiques au domaine sous-marin ?

2. Méthodologie : PSG-UIENet

Les auteurs proposent PSG-UIENet, un réseau d'amélioration d'images guidé par la physique et la sémantique. L'architecture repose sur trois modules principaux :

A. Estimation de l'illumination sans prior (Prior-Free Illumination Estimator)

Contrairement aux méthodes Retinex traditionnelles qui utilisent des priors fixes, ce module estime les cartes d'illumination de manière purement pilotée par les données.

Il utilise une approche multi-échelle (résolutions 16x16, 32x32, 64x64) pour capturer les dégradations lumineuses variées.
Il génère une image "éclaircie" ( $I_{lit}$ ) en appliquant une carte d'illumination normalisée à l'image dégradée, réduisant ainsi les déséquilibres d'exposition avant l'étape de restauration.

B. Alignement Texte-Image Cross-Modal (Cross-Modal Text Aligner)

Ce module vise à aligner les caractéristiques visuelles et textuelles dans un espace sémantique commun.

Il utilise un encodeur de texte CLIP (frozen) pour extraire les embeddings textuels.
Un bloc de projection apprend à mapper les caractéristiques de l'image brute dans le même espace sémantique.
Un encodeur Transformer avec mécanisme d'attention multi-têtes fusionne ces deux modalités pour obtenir des caractéristiques textuelles alignées ( $F'_{text}$ ) prêtes à guider la restauration.

C. Restaurateur d'images guidé par la sémantique (Semantics-Guided Image Restorer)

C'est le cœur du réseau, utilisant une architecture encodeur-décodeur à double branche avec fusion croisée :

Stratégie de Masquage : L'image éclaircie est masquée aléatoirement au niveau des pixels (ratio $\theta$ $θ$ ).
- Branche Sémantique : Reçoit l'image masquée et doit reconstruire les zones manquantes en s'appuyant fortement sur les descriptions textuelles fournies.
- Branche Image : Reçoit l'image complète pour préserver l'intégrité structurelle et les détails fins.
Module CFM (Cross-Attention FiLM Module) : Situé au goulot d'étranglement (bottleneck), ce module innovant utilise l'attention croisée entre les caractéristiques visuelles et textuelles pour générer des paramètres de modulation (scaling $\gamma$ et shifting $\beta$ ). Cela permet d'injecter dynamiquement la sémantique textuelle dans les cartes de caractéristiques visuelles.
Fusion : Les sorties des deux branches sont fusionnées et normalisées pour produire l'image finale.

D. Fonction de Perte (Loss Function)

Pour entraîner le réseau, une fonction de perte composite est utilisée :

Perte MSE et SSIM : Pour la fidélité pixel et la cohérence structurelle.
Perte Perceptuelle : Basée sur VGG pour la qualité visuelle.
Perte ITSS (Image-Text Semantic Similarity) : Une nouveauté clé. Elle mesure la similarité sémantique entre l'image améliorée et la description textuelle en utilisant CLIP. Elle agit comme une contrainte sémantique pour s'assurer que l'image restaurée correspond au contenu décrit par le texte.

3. Contributions Clés

Architecture PSG-UIENet : Premier réseau UIE guidé par la physique (Retinex) et la sémantique textuelle, intégrant un estimateur d'illumination sans prior et un restaurateur à double branche.
Jeu de Données LUIQD-TD : Construction du premier jeu de données multimodal à grande échelle pour l'UIE. Il contient 6 418 triplets (Image dégradée, Image de référence, Description textuelle). Les descriptions ont été générées par IA (ChatGPT-4) puis révisées manuellement.
Mécanisme de Fusion et Perte ITSS : Introduction d'un module CFM pour une fusion adaptative et d'une fonction de perte ITSS pour optimiser explicitement la cohérence sémantique entre l'image et le texte.
Performances Supérieures : Validation extensive sur cinq jeux de données (dont quatre publics) contre 15 méthodes de l'état de l'art (SOTA).

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq jeux de données de test (LUIQD-TD, UIEB, SUIM-E, SQUID) en utilisant des métriques avec et sans référence.

Évaluation Quantitative (Référence) : Sur les jeux de données avec images de référence (Test-L622, Test-U80, Test-S110), PSG-UIENet obtient les meilleurs scores en PSNR (24.07 dB), SSIM (0.9019) et LPIPS (0.0911) sur le jeu LUIQD-TD, surpassant les méthodes basées sur Retinex (Retinexformer, RetinexMamba) et les méthodes guidées par texte (CLIP-LIT, CLIP-UIE).
Évaluation Sans Référence : Bien que certaines méthodes concurrentes obtiennent des scores légèrement supérieurs sur des métriques spécifiques comme PAUQA ou UIF, les résultats visuels montrent que PSG-UIENet produit des images plus naturelles, avec moins de distorsion de couleur et une meilleure fidélité sémantique.
Analyse Qualitative : Les images restaurées par PSG-UIENet présentent des couleurs plus vives et naturelles, et une meilleure préservation des détails par rapport aux méthodes SOTA qui souffrent souvent de sur-amélioration ou de teintes artificielles.
Étude Ablative :
- La suppression du module d'estimation de l'illumination ou du restaurateur entraîne une chute significative des performances.
- La suppression de la modalité texte ou du mécanisme d'attention croisée dégrade la fidélité structurelle et sémantique.
- Un ratio de masquage optimal de 0.5 a été identifié pour équilibrer l'apprentissage sémantique et la préservation visuelle.

5. Signification et Impact

Cette étude marque une avancée significative dans le domaine de la vision sous-marine :

Changement de paradigme : Elle démontre que l'intégration de descriptions textuelles (sémantique de haut niveau) peut guider efficacement la restauration d'images, comblant le fossé entre les priors physiques et l'apprentissage profond.
Ressource pour la communauté : La libération du jeu de données LUIQD-TD (le premier de son genre avec annotations texte-image) ouvre la voie à de futures recherches en apprentissage multimodal pour l'environnement sous-marin.
Robustesse : La méthode propose une solution plus robuste et adaptable aux conditions sous-marines complexes que les approches purement physiques ou purement basées sur les données.

En résumé, PSG-UIENet établit une nouvelle référence pour l'amélioration d'images sous-marines en prouvant que le langage peut servir de guide puissant pour la perception visuelle, tout en s'appuyant sur des fondations physiques solides.