Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Each language version is independently generated for its own context, not a direct translation.

🖼️ Le Problème : La Photo Floue et le Dessinateur Fantaisiste

Imaginez que vous avez une vieille photo de famille, très petite et floue (c'est l'image "basse résolution"). Vous voulez la rendre grande et nette (haute résolution).

Le problème, c'est que les détails fins (les rides sur un visage, les motifs d'un tissu, les feuilles d'un arbre) ont disparu. Ils sont perdus à jamais.

Les ordinateurs essaient de deviner ces détails manquants.

Les anciennes méthodes (comme les logiciels de retouche classiques) essaient de "deviner" mathématiquement. Le résultat est souvent trop lisse, comme une photo de plâtre : c'est net, mais ça ne ressemble pas à la réalité.
Les nouvelles méthodes (IA générative) sont comme des artistes très créatifs. Elles peuvent inventer des détails super réalistes. Mais parfois, elles sont trop créatives : elles inventent des textures qui n'existent pas, ou elles dessinent un motif qui ne correspond pas du tout à la forme de l'objet. C'est ce qu'on appelle une "hallucination".

🌊 La Solution : BATDiff (Le Chef d'Orchestre des Vagues)

Les auteurs de cet article, Maryam, Nantheera et Alin, ont créé un nouveau modèle appelé BATDiff. Pour comprendre comment il fonctionne, utilisons une analogie avec la construction d'une maison ou la peinture d'un tableau.

1. L'Analogie de la Pyramide (Le "A Trous")

Imaginez que vous voulez reconstruire un bâtiment complexe.

Les autres méthodes essaient de tout construire d'un coup, brique par brique, en regardant seulement le plan final. C'est risqué : on peut se tromper sur la structure de base.
BATDiff utilise une méthode en pyramide. Il commence par dessiner les grandes lignes, les murs porteurs et la forme générale (les basses fréquences). Une fois que la structure est solide, il ajoute les étages, puis les fenêtres, puis les détails de la décoration (les hautes fréquences).

Pour faire cela, ils utilisent une technique mathématique appelée "A Trous" (qui signifie "à trous" en français, une ondelette). Imaginez une grille qui s'agrandit progressivement. À chaque niveau, on voit le monde un peu plus flou, mais on garde la position exacte des objets. Cela permet de ne jamais perdre le fil de la forme globale en ajoutant des détails.

2. Le Guide Parent-Enfant (La Relation Bivariée)

C'est le cœur de l'innovation. Dans la pyramide, chaque niveau de détail est lié au niveau juste en dessous.

Imaginez un parent (le niveau grossier, la forme globale) et son enfant (le niveau fin, les détails).
Dans les anciennes méthodes, l'enfant (les détails) était un peu rebelle : il pouvait inventer des choses qui ne correspondaient pas au parent.
BATDiff impose une règle stricte : l'enfant doit toujours écouter son parent.
- Si le parent dit "c'est un mur droit", l'enfant ne peut pas dessiner un mur courbe.
- Si le parent dit "c'est une fenêtre", l'enfant ajoute les vitres et le cadre, mais il respecte la forme de la fenêtre.

C'est ce qu'ils appellent une conditionnement bivaré. Le modèle ne dessine pas les détails au hasard ; il les dessine en regardant ce qui a déjà été construit à l'étage inférieur. Cela évite les erreurs et les incohérences.

3. Le Fil de la Vérité (La Cohérence avec l'Image d'origine)

Pendant que l'IA dessine, elle a tendance à s'éloigner un peu de la réalité. Pour l'empêcher de trop s'imaginer des choses, BATDiff utilise un fil de sécurité.

À chaque étape du dessin, le modèle regarde l'image originale floue (l'image basse résolution).
Il se demande : "Est-ce que ce que je dessine correspond encore à ce que je vois dans l'image de départ ?"
Si la réponse est non, il corrige le tir immédiatement.

C'est comme si vous essayiez de recopier un dessin complexe les yeux fermés, mais que quelqu'un vous touchait l'épaule à chaque fois que votre crayon s'éloignait trop de la ligne originale.

🏆 Le Résultat : Pourquoi c'est mieux ?

Grâce à cette méthode, BATDiff réussit à faire deux choses difficiles en même temps :

Être net : Il ajoute des détails réalistes et tranchants (pas de flou).
Être cohérent : Il ne crée pas de "fantômes" ou de textures bizarres qui n'ont pas de sens.

En résumé :
Alors que d'autres IA essaient de "deviner" le futur en sautant dans le vide, BATDiff construit l'image comme un maçon : il pose d'abord les fondations solides, puis il construit étage par étage, en s'assurant que chaque brique est parfaitement alignée avec celle du dessous, tout en vérifiant constamment qu'il ne s'éloigne pas du plan initial.

Le résultat ? Des images super-résolues qui sont à la fois magnifiques et fidèles à la réalité, même sans avoir vu des millions d'exemples similaires auparavant.

Each language version is independently generated for its own context, not a direct translation.

Titre : Super-résolution d'image unique via une diffusion d'ondelettes bivariables `A Trous (BATDiff)

1. Problématique

La super-résolution d'image unique (SISR) vise à reconstruire une image haute résolution (HR) à partir d'une seule observation basse résolution (LR), un problème inverse où les informations haute fréquence sont irrémédiablement perdues.

Limites des approches existantes : Bien que les modèles basés sur la diffusion aient considérablement amélioré l'état de l'art, la plupart opèrent uniquement dans le domaine spatial. Cela peut entraîner la génération de détails haute fréquence qui ne sont pas bien soutenus par les preuves LR sous-jacentes, créant des artefacts ou des incohérences structurelles.
Le défi de l'apprentissage interne : Contrairement aux modèles supervisés qui peuvent « halluciner » des textures basées sur des ensembles de données externes, la SISR repose sur les statistiques internes de l'image. Cependant, l'ambiguïté de l'observation LR conduit souvent à des détails haute fréquence incohérents.
Manque de dépendances inter-échelles : Les formulations actuelles de diffusion SISR traitent souvent la reconstruction à une seule échelle effective, négligeant les dépendances statistiques « parent-enfant » entre les coefficients d'ondelettes à différentes échelles, qui sont cruciales pour la cohérence structurelle.

2. Méthodologie : BATDiff

Les auteurs proposent BATDiff, un cadre de diffusion non supervisé (sans paires LR-HR externes) qui intègre une décomposition en ondelettes A Trous et un mécanisme de conditionnement bivariable.

A. Représentation Multi-échelle par Ondelettes `A Trous

Le modèle utilise une transformée en ondelettes A Trous (non décimée) pour construire une représentation multi-échelle invariante par translation.
Cette approche préserve la résolution spatiale complète à chaque niveau de décomposition, assurant un alignement spatial précis entre les sous-bandes basses et hautes fréquences.
L'image est décomposée en une série de composantes lisses ( $c^{(s)}$ ) et de plans de détails ( $w^{(s)}$ ), permettant une reconstruction progressive du contenu haute fréquence.

B. Diffusion Réverse Bivariable

C'est le cœur de l'innovation. Au lieu de modéliser chaque échelle indépendamment, BATDiff introduit un conditionnement parent-enfant explicite :

Mécanisme : Lors du processus de diffusion inverse (désbruitage), la reconstruction à une échelle fine $s$ est conditionnée non seulement par son état bruité actuel, mais aussi par l'estimation temporellement alignée de l'échelle parente adjacente ( $s-1$ ).
Formulation : La probabilité de transition est modélisée comme $p_\theta(x^{(s)}_{t-1} \mid x^{(s)}_t, x^{(s-1)}_t)$ .
Avantage : Ce conditionnement bivariable intègre directement les dépendances statistiques inter-échelles dans l'inférence, réduisant la dérive entre les structures grossières et les détails fins générés.

C. Contrainte de Cohérence LR (LR-Consistency)

Pour garantir que l'image générée reste fidèle à l'observation d'entrée :

À chaque étape de diffusion inverse, une correction légère est appliquée via une descente de gradient sur une fonction de perte de cohérence des données ( $\|\mathcal{D}(x) - y\|^2$ ).
Cela assure que le processus génératif ne s'éloigne pas de l'observation LR, combinant ainsi le prior génératif (pour les détails) et la contrainte physique (pour la fidélité).

D. Apprentissage Non Supervisé

Le modèle est entraîné uniquement sur les statistiques internes de l'image test elle-même (pas de jeu de données apparié LR-HR externe).
Un seul réseau de prédiction de bruit ( $\epsilon_\theta$ ) est partagé entre toutes les échelles, avec des embeddings appris pour distinguer les niveaux d'échelle.

3. Contributions Clés

Mécanisme de conditionnement bivariable : Introduction d'une dépendance parent-enfant explicite au sein de l'inférence de diffusion inverse pour modéliser les dépendances statistiques multi-échelles.
Représentation spatiale alignée : Utilisation de la transformée A Trous pour créer une représentation multi-échelle invariante par translation, facilitant un conditionnement inter-échelle stable.
Cadre SISR non supervisé : Développement d'une méthode efficace sans supervision externe, assurant la cohérence avec l'entrée LR tout en récupérant des détails fins plausibles.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks standards (DIV2K, Set5, Set14, Urban100) avec un facteur de suréchantillonnage de $\times4$ et $\times8$ .

Performance Quantitative :
- Sur le dataset difficile Urban100 ( $\times4$ ), BATDiff atteint 28,53 dB de PSNR et 0,8502 d'SSIM, surpassant les modèles de diffusion supervisés (comme StableSR, SRDiff) et les méthodes non supervisées (comme ZSSR).
- Sur Set5, il obtient 32,89 dB PSNR et 0,9063 SSIM.
- Il démontre une robustesse supérieure aux facteurs de suréchantillonnage non entiers et au-delà de la distribution d'entraînement (ex: $\times8$ ), là où les méthodes supervisées échouent souvent.
Performance Qualitative :
- Les reconstructions présentent des bords plus nets, des contours plus précis et des textures plus plausibles.
- Réduction significative des artefacts de sur-lissage (typiques des méthodes par régression) et des hallucinations de textures incohérentes (typiques des GAN).
Études d'ablation :
- L'ajout du conditionnement bivariable améliore considérablement les métriques par rapport à une version univariable.
- L'alignement temporel du signal parent ( $x^{(s-1)}_t$ ) est crucial : utiliser un état parent non aligné ou final dégrade les performances.

5. Signification et Impact

BATDiff représente une avancée significative dans le domaine de la super-résolution générative en :

Résolvant le problème de cohérence structurelle : En intégrant explicitement les dépendances multi-échelles dans le processus de diffusion, le modèle évite la génération de détails haute fréquence déconnectés de la structure globale.
Réduisant la dépendance aux données : En étant non supervisé et basé sur l'apprentissage interne, il est applicable à des scénarios réels où les paires LR-HR sont indisponibles ou où les dégradations sont complexes et inconnues.
Offrant une flexibilité : La nature de la grille haute résolution (HR-grid) utilisée permet un suréchantillonnage à des facteurs non entiers sans modification architecturale.

En conclusion, BATDiff démontre que l'imposition d'une structure inter-échelle directe au sein de la reconstruction par diffusion est une voie prometteuse pour améliorer la fidélité et la qualité perceptuelle de la super-résolution d'image unique.