Geometric Transformation-Embedded Mamba for Learned Video Compression

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Comment envoyer des vidéos sans les "écraser" ?

Imaginez que vous voulez envoyer une vidéo à un ami. Les vidéos sont énormes, elles prennent trop de place et mettent des heures à charger. Pour les envoyer vite, on doit les compresser (les réduire).

Les méthodes actuelles fonctionnent un peu comme un dessin animé complexe :

Elles regardent la première image.
Pour la deuxième image, elles disent : "Ah, l'arbre a bougé de 2 cm à droite !". Elles calculent ce mouvement (c'est l'estimation de mouvement).
Elles envoient juste le "décalage" et le reste.
C'est très efficace, mais c'est très compliqué à calculer, comme essayer de résoudre un puzzle géant à chaque seconde de la vidéo.

💡 La Solution : Une nouvelle approche "Mamba"

Les auteurs de ce papier (de l'Université Jiaotong de Xi'an) ont dit : "Et si on arrêtait de calculer chaque mouvement séparément ?"

Ils ont créé une nouvelle méthode qui ne cherche pas à prédire le mouvement image par image. Au lieu de cela, elle regarde la vidéo comme un tapis roulant continu et essaie de comprendre les liens entre tout ce qui se passe, du début à la fin, instantanément.

Voici les trois ingrédients magiques de leur recette :

1. Le "Mamba" en Cascade (Le Détective à 4 Vues)

Imaginez un détective qui doit lire un livre pour comprendre une histoire.

L'ancien détective lisait mot par mot, de gauche à droite. Il pouvait oublier ce qui s'est passé au début du chapitre.
Leur nouveau détective (le Mamba) est super-puissant. Il lit le livre de quatre façons différentes en même temps :
- De gauche à droite (comme nous).
- De droite à gauche (pour voir ce qui vient après).
- De haut en bas (pour voir les liens verticaux).
- De bas en haut.
En plus, il a des lunettes magiques (transformations géométriques) qui lui permettent de voir l'histoire non seulement dans l'espace, mais aussi dans le temps. Il comprend que si un ballon monte dans l'image 1, il sera plus haut dans l'image 2, sans avoir besoin de calculer la trajectoire exacte. C'est comme si le détective comprenait l'histoire entière d'un seul coup d'œil.

2. Le "Réflecteur de Détails" (Pour ne rien oublier)

Le Mamba est excellent pour voir les grandes tendances (le ciel, les mouvements globaux), mais il est parfois un peu "flou" sur les petits détails (les textures, les cheveux, les motifs).

Pour corriger ça, ils ont ajouté un réflecteur de détails (le LRFFN).

Imaginez que vous regardez une photo de loin : vous voyez une voiture.
Ce module, c'est comme une loupe qui se promène sur la photo. Il ne regarde pas juste la couleur, il regarde les différences entre les pixels voisins.
Il se dit : "Tiens, ici, la couleur change brusquement, c'est probablement le bord d'une fenêtre". Cela permet de garder les détails fins (comme les barreaux d'un pont ou les phares d'une voiture) même quand la vidéo est très compressée.

3. Le "Devin Intuitif" (Le Modèle d'Entropie)

Pour compresser, il faut deviner ce qui va arriver pour ne pas envoyer l'information inutile.

Les anciennes méthodes utilisaient seulement l'image précédente pour deviner la suivante.
Leur nouveau système est un devin plus malin. Il utilise non seulement l'image précédente, mais il regarde aussi comment les images précédentes bougeaient entre elles.
C'est comme si vous regardiez un film : si vous voyez un personnage courir vers la droite dans les deux dernières scènes, vous savez qu'il va probablement continuer vers la droite. Le système utilise cette "mémoire du mouvement" pour deviner exactement ce qui va arriver, ce qui lui permet d'envoyer beaucoup moins d'informations.

🏆 Le Résultat : Pourquoi c'est génial ?

Quand on teste cette méthode :

Moins de données : Elle arrive à compresser la vidéo beaucoup plus fort que les méthodes actuelles.
Plus beau : À très basse qualité (quand la connexion est mauvaise), les autres méthodes rendent la vidéo floue et "lisse" (comme de la boue). Celle-ci garde les structures nettes (les lignes, les formes).
Plus fluide : Il n'y a pas de "saccades" bizarres entre les images. Tout semble naturel.

En résumé

Au lieu de construire une machine complexe qui calcule chaque mouvement (comme un ingénieur en mécanique), ils ont créé une intelligence artificielle qui "ressent" la vidéo dans son ensemble. Elle utilise un détective à 4 vues (Mamba), une loupe à détails (Réflecteur) et un devin intuitif (Le Devin) pour envoyer des vidéos ultra-nettes, même avec une connexion internet très lente.

C'est une façon plus simple, plus intelligente et plus efficace de dire au monde : "Regardez cette vidéo, elle est parfaite, même si je vous l'envoie dans un petit colis !"

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les méthodes de compression vidéo apprises (Learned Video Compression - LVC) actuelles souffrent souvent d'une complexité excessive. La majorité d'entre elles suivent un paradigme de codage hybride, inspiré des codecs traditionnels (comme H.264/HEVC). Ce paradigme nécessite des étapes explicites et coûteuses en calcul :

Estimation et compensation du mouvement (Motion Estimation/Compensation).
Codage des vecteurs de mouvement et des résidus.
Gestion complexe des dépendances spatio-temporelles.

Bien que performantes, ces approches sont lourdes et difficiles à optimiser de bout en bout. À l'inverse, les méthodes basées sur la transformée directe (sans estimation de mouvement explicite) existent, mais elles peinent à capturer efficacement les dépendances à longue portée (spatiales et temporelles) nécessaires pour une compression optimale, notamment aux faibles débits. Les convolutions 3D classiques ont des champs récepteurs locaux limités, tandis que les modèles basés sur les Transformers peuvent être trop coûteux en calcul.

2. Méthodologie

L'article propose un cadre de compression vidéo basé sur la transformée directe, éliminant la nécessité d'une estimation de mouvement explicite. L'architecture repose sur trois piliers principaux intégrés dans un encodeur-décodeur :

A. Module Mamba en Cascade (Cascaded Mamba Module - CMM)

Pour capturer les dépendances à longue portée dans l'espace et le temps, les auteurs remplacent les convolutions 3D par des blocs Mamba (modèles d'espace d'état) adaptés à la vision.

Transformation Géométrique : Contrairement aux approches Mamba existantes qui scannent l'image dans plusieurs directions en parallèle (ce qui est coûteux), le CMM utilise une transformation géométrique réversible avant un balayage unique.
Stratégies de Balayage : Le module utilise quatre stratégies de balayage sélectif en cascade pour explorer le contexte global :
1. FST (Forward Spatio-Temporal) : Balayage avant selon l'espace, puis le temps.
2. BST (Backward Spatio-Temporal) : Balayage arrière (inversion des dimensions).
3. FTS (Forward Temporal-Spatial) : Priorité au temps, puis à l'espace.
4. BTS (Backward Temporal-Spatial) : Priorité au temps, balayage arrière.
Cela permet de modéliser efficacement les dépendances non locales sans la complexité des scans multiples parallèles.

B. Réseau de Raffinement de Localité (Locality Refinement Feed-Forward Network - LRFFN)

Pour compléter la modélisation globale du CMM, un module est dédié à la capture des détails fins et des dépendances locales.

Il intègre un Bloc de Convolution Hybride (HCB) basé sur des convolutions de différence.
Ce bloc combine cinq opérations parallèles : convolution verticale, horizontale, angulaire, centrale (différence) et une convolution classique.
Les convolutions de différence capturent les variations entre les pixels voisins, permettant une représentation plus compacte et efficace des détails de basse fréquence, réduisant ainsi le nombre de bits nécessaires.

C. Modèle d'Entropie Conditionnelle par Canal (Conditional Channel-wise Entropy Model)

Pour estimer la distribution de probabilité des caractéristiques latentes (latents) avec précision :

Priors Temporels : Le modèle utilise non seulement les latents des trames précédemment décodées, mais aussi des latents pseudo-alignés de la trame courante.
Module d'Alignement de Mouvement Prédictif (PMA) : Il estime le mouvement entre les deux dernières trames décodées ( $\bar{y}_{t-2}$ et $\bar{y}_{t-1}$ ) pour créer une caractéristique alignée $\tilde{y}_t$ servant de condition.
Réseau de Génération de Condition (CGN) : Il fusionne les caractéristiques alignées et les latents précédents pour générer des conditions riches qui guident le codage entropique de la trame actuelle.

3. Contributions Clés

Approche Transformée Directe Efficace : Proposition d'une méthode de compression vidéo qui évite les opérations complexes d'estimation de mouvement explicite, tout en maintenant une haute qualité perceptive.
CMM avec Transformations Géométriques : Développement d'un module Mamba en cascade utilisant des transformations géométriques réversibles pour capturer les dépendances spatio-temporelles à longue portée de manière efficace en calcul.
LRFFN pour les Détails Locaux : Introduction d'un réseau de raffinement utilisant des convolutions de différence hybrides pour améliorer la représentation des détails locaux et réduire la redondance.
Modèle d'Entropie Avancé : Conception d'un modèle d'entropie conditionnelle qui exploite à la fois les latents passés et les caractéristiques pseudo-alignées de la trame courante pour une estimation de probabilité plus précise.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode sur plusieurs benchmarks standards (REDS4, UVG, MCL-JCV) et l'ont comparée à l'état de l'art (DCVC, DCVC-HEM, DHVC, GLC-video, etc.).

Qualité Perceptive : La méthode GTEM-LVC surpasse systématiquement les méthodes hybrides et transformées existantes sur les métriques perçues (LPIPS et DISTS), en particulier aux faibles débits.
Cohérence Temporelle : Elle obtient les meilleurs scores de cohérence temporelle (tLPIPS), réduisant les artefacts de clignotement et les discontinuités entre les trames.
Fidélité Pixel : Bien que conçue pour le perceptuel, elle maintient des scores de distorsion (PSNR, MS-SSIM) compétitifs, surpassant souvent les méthodes purement perçues qui sacrifient la fidélité pixel.
Complexité : Le modèle possède un nombre de paramètres comparable aux méthodes hybrides (environ 47M), avec des temps d'encodage/décodage raisonnables, bien que le modèle d'entropie conditionnelle représente une part significative du coût computationnel.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la compression vidéo apprise en démontrant que :

L'estimation de mouvement explicite n'est pas indispensable pour une compression vidéo de haute qualité si l'on utilise des modèles capables de capturer efficacement les dépendances globales (via Mamba).
L'intégration de transformations géométriques dans les architectures State Space Models (Mamba) permet de surmonter les limitations des scans directionnels classiques pour la vidéo.
L'approche combinée (Modélisation globale via Mamba + Modélisation locale via convolutions de différence + Codage entropique conditionnel intelligent) offre un compromis optimal entre complexité, débit binaire et qualité visuelle, ouvrant la voie à des codecs vidéo plus simples et plus performants pour les applications à faible débit.

En résumé, GTEM-LVC propose une alternative élégante et performante aux codecs hybrides complexes, en tirant parti des dernières avancées des modèles d'espace d'état pour la vision par ordinateur.