Content-Aware Mamba for Learned Image Compression

Each language version is independently generated for its own context, not a direct translation.

📸 Le Problème : Le "Téléphone Arabe" de la Compression d'Image

Imaginez que vous voulez envoyer une photo par message à un ami, mais votre connexion internet est très lente. Vous devez donc "compresser" l'image pour qu'elle soit plus petite, tout en gardant une bonne qualité.

Les ordinateurs actuels utilisent des méthodes très intelligentes (appelées Mamba) pour faire cela. Elles fonctionnent un peu comme un lecteur de livre qui parcourt l'image ligne par ligne, de gauche à droite, de haut en bas (comme on lit un texte).

Le problème ?
Dans une image, les choses qui se ressemblent ne sont pas toujours côte à côte.

Imaginez un ciel bleu avec des nuages. Le nuage en haut à gauche et celui en bas à droite sont très similaires, mais le "lecteur" doit parcourir toute l'image pour les rencontrer.
Pendant ce temps, il lit des choses qui n'ont rien à voir ensemble (comme un nuage et un arbre), ce qui est une perte de temps et d'énergie.
De plus, le lecteur est "bête" : il ne peut regarder que ce qui est devant lui. Il ne peut pas savoir ce qui se passe plus loin dans l'image tant qu'il n'y est pas arrivé.

C'est comme essayer de ranger une valise en mettant les objets les uns après les autres sans jamais regarder ce qu'il y a déjà dedans. C'est inefficace.

💡 La Solution : Le "Camion de Déménagement Intelligent" (CMIC)

Les chercheurs de ce papier ont créé un nouveau système appelé CMIC (Content-Aware Mamba). Au lieu d'un simple lecteur de ligne, ils ont inventé un camion de déménagement intelligent qui comprend ce qu'il transporte.

Voici comment il fonctionne avec deux astuces magiques :

1. Le Tri par Affinité (La Permutation Adaptative) 🧩

Au lieu de charger la valise dans l'ordre où les objets sont posés sur le sol, le camion intelligent regroupe d'abord les objets qui se ressemblent.

Il prend tous les nuages et les met ensemble.
Il prend tous les arbres et les met ensemble.
Il prend tous les visages et les met ensemble.

L'analogie : Imaginez que vous devez ranger une bibliothèque. Au lieu de ranger les livres par ordre d'apparition sur l'étagère, vous les regroupez par genre (tous les romans policiers ensemble, tous les livres de cuisine ensemble).

Résultat : Le camion (l'ordinateur) n'a plus besoin de faire des allers-retours inutiles. Il compresse les nuages ensemble, puis les arbres ensemble. Comme les objets sont similaires, il peut dire : "Tiens, ce nuage est presque identique au précédent, je n'ai besoin de noter que la différence !" Cela économise énormément de place.

2. La Carte Globale (Le Prompting à Priori Global) 🗺️

Le problème du lecteur classique est qu'il est aveugle à l'avenir. Il ne sait pas ce qu'il y a à la fin de l'image.
Le système CMIC donne au camion une carte complète de la valise avant même de commencer à charger.

Le camion sait : "Ah, il y a beaucoup de nuages dans cette image, je vais préparer ma stratégie pour les nuages dès le début."
Il ne se contente pas de regarder l'objet devant lui, il utilise cette "carte" pour comprendre le contexte global de l'image.

L'analogie : C'est la différence entre quelqu'un qui lit un livre mot par mot sans savoir la fin de l'histoire, et quelqu'un qui a lu le résumé du livre avant de commencer. Le deuxième comprend mieux les liens entre les personnages, même s'ils sont loin l'un de l'autre dans le texte.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à ces deux astuces, le système CMIC fait des merveilles :

Plus petit, mais aussi beau : Il arrive à réduire la taille des images de 15% à 21% de plus que les meilleurs systèmes actuels (comme ceux utilisés par les caméras professionnelles), tout en gardant une qualité visuelle parfaite. C'est comme si vous pouviez envoyer 100 photos au lieu de 80 avec la même vitesse d'internet.
Rapide et léger : Contrairement à d'autres méthodes intelligentes qui sont très lourdes et lentes (comme les Transformers), CMIC reste rapide et consomme peu d'énergie. C'est un Ferrari qui consomme comme une petite citadine.
Adaptatif : Il s'adapte à chaque image. Une photo de plage n'est pas traitée comme une photo de forêt. Il trouve les "nuages" dans le ciel et les "sables" sur la plage, peu importe où ils sont situés.

En résumé

Ce papier propose de remplacer la méthode rigide de lecture "ligne par ligne" des images par une méthode intelligente et flexible qui :

Regroupe les éléments similaires (même s'ils sont loin).
Utilise une carte globale pour comprendre l'image en entier dès le début.

C'est comme passer d'un déménageur qui suit un plan rigide à un déménageur expert qui trie et comprend ce qu'il transporte pour optimiser l'espace dans le camion. Le résultat ? Des images plus petites, plus belles, et qui voyagent plus vite sur internet ! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'apprentissage de la compression d'images (LIC - Learned Image Compression) a récemment intégré des modèles d'espace d'états (SSM), en particulier l'architecture Mamba, pour obtenir des champs récepteurs globaux avec une complexité linéaire. Cependant, l'application standard de Mamba à la compression d'images se heurte à deux limitations fondamentales :

Scannage rigide et agnostique du contenu : Mamba traite les tokens (pixels/caractéristiques) selon un ordre de balayage fixe (généralement le balayage raster ou multidirectionnel). Cette approche ignore les corrélations sémantiques entre des régions d'une image qui sont proches dans l'espace des caractéristiques mais éloignées dans l'espace Euclidien. Cela empêche une élimination efficace de la redondance.
Causalité stricte : Mamba est un modèle séquentiel causal. Lorsqu'une image est convertie en séquence, un token ne peut accéder qu'aux informations des tokens précédents dans l'ordre de balayage. Cela ignore le contexte des tokens suivants, ce qui est problématique pour les images qui sont par nature non-causales. Les solutions actuelles (balayage multidirectionnel) quadruplent la complexité computationnelle.

2. Méthodologie : Content-Aware Mamba (CAM)

Les auteurs proposent CMIC (Content-Aware Mamba-based LIC), un modèle qui introduit le Content-Aware Mamba (CAM), un SSM dynamique adapté spécifiquement à la compression. L'architecture repose sur deux mécanismes novateurs :

A. Permutation de Tokens Adaptative au Contenu (Content-Adaptive Token Permutation - CTP)

Au lieu d'un balayage spatial fixe, CAM réorganise dynamiquement la séquence de tokens en fonction de leur similarité de contenu.

Clustering basé sur un Codebook : Au lieu d'utiliser un K-Means en ligne coûteux et instable, le modèle utilise un codebook d'entraînements partagés et appris (inspiré de VQ-VAE). Les tokens sont regroupés en $K$ clusters basés sur la similarité cosinus avec les centroïdes du codebook.
Réorganisation : La séquence de tokens est permutée pour que les tokens appartenant au même cluster (donc sémantiquement similaires) soient contigus dans la séquence 1D traitée par Mamba.
Avantage : Cela permet au mécanisme de sélection de Mamba de capturer les dépendances à longue portée entre régions sémantiquement liées, indépendamment de leur distance spatiale, tout en conservant la complexité linéaire.

B. Prompting par Priors Globaux (Global-Prior Prompting - GPP)

Pour atténuer la contrainte de causalité stricte sans recourir à des balayages multidirectionnels coûteux, le modèle injecte des informations globales dans le processus de modélisation.

Dictionnaire de Prompts Redondant : Un dictionnaire apprenable est construit à partir des centroïdes des clusters. Chaque entrée du dictionnaire est un vecteur de "prompt" représentant la distribution statistique d'un cluster sémantique.
Conditionnement : Pour chaque image, une matrice de prompts spécifique à l'échantillon est générée en fonction de l'appartenance des tokens aux clusters. Ce signal de prompt est injecté dans la matrice de sortie ( $C$ ) de l'équation d'état de Mamba.
Avantage : Cela permet au modèle de "voir" au-delà de la séquence causale immédiate en intégrant des statistiques globales de l'image à chaque étape, brisant ainsi la chaîne causale stricte sans augmenter la complexité quadratique.

3. Contributions Clés

Permutation Adaptative : Introduction d'un mécanisme de réordonnancement des tokens basé sur la similarité des caractéristiques, privilégiant la proximité dans l'espace des caractéristiques plutôt que l'adjacence spatiale.
Prompting par Priors Globaux : Une méthode efficace pour relaxer la causalité de Mamba en utilisant des prompts dérivés du clustering, évitant ainsi le coût computationnel des scans multidirectionnels.
Modèle CMIC : Construction d'un modèle de compression d'images complet (encodeur/décodeur VAE) intégrant ces blocs CAM, surpassant les modèles précédents en performance et en efficacité.

4. Résultats Expérimentaux

Le modèle CMIC a été évalué sur trois jeux de données standards : Kodak, Tecnick et CLIC.

Performance Rate-Distortion (RD) :
- CMIC surpasse le codec traditionnel VTM-21.0 (H.266/VVC) avec des économies de débit (BD-rate) de 15,91 % (Kodak), 21,34 % (Tecnick) et 17,58 % (CLIC).
- Il dépasse les modèles SOTA basés sur Mamba (MambaVC, MambaIC) et les modèles basés sur Transformer (FTIC, TCM-L) avec des gains significatifs en BD-PSNR et BD-rate.
Efficacité et Complexité :
- Malgré la complexité ajoutée par le clustering et le prompting, CMIC maintient une complexité linéaire.
- Comparé à MambaIC, CMIC réduit le nombre de paramètres de 56 %, les FLOPs de 57 % et la latence de décodage de 39 %.
- Il utilise 78 % moins de mémoire GPU que MambaIC grâce à l'utilisation d'un seul scan sélectif plutôt que de scans 2D quadratiques.
Visualisation : Les visualisations du champ récepteur effectif (ERF) montrent que CMIC développe des champs récepteurs adaptatifs au contenu, alignés sur les structures sémantiques (ex: plumes, contours), contrairement aux modèles basés sur Mamba standard qui montrent des artefacts en forme de croix ou des champs récepteurs isotropes.

5. Signification et Impact

Ce travail démontre que l'architecture Mamba, initialement conçue pour les séquences 1D, peut être adaptée avec succès à la compression d'images 2D en surmontant ses limitations inhérentes (causalité et ordre de balayage rigide).

Innovation Conceptuelle : Le passage d'un balayage spatial fixe à un balayage "conscient du contenu" (content-aware) ouvre une nouvelle voie pour les modèles SSM dans la vision par ordinateur, permettant de capturer des redondances non locales de manière efficace.
Efficacité Pratique : En évitant les scans multidirectionnels coûteux tout en améliorant la performance, CMIC propose une solution viable pour le déploiement de la compression d'images apprise sur du matériel réel, offrant un compromis supérieur entre qualité de reconstruction et coût computationnel.
État de l'Art : Le modèle établit un nouvel état de l'art (SOTA) dans la compression d'images apprise, surpassant à la fois les codecs traditionnels (VTM) et les approches récentes basées sur les Transformers et les SSM.

En résumé, CMIC résout le dilemme entre la capacité de modélisation globale et l'efficacité computationnelle en rendant le processus de balayage de Mamba dynamique et guidé par le contenu sémantique de l'image.