Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Each language version is independently generated for its own context, not a direct translation.

🎥 TS-Mamba : Le Chef d'Orchestre Intelligent pour vos Vidéos en Direct

Imaginez que vous regardez un match de football en direct sur votre téléphone. La connexion est mauvaise, l'image est floue et pixélisée. Vous voulez voir les détails (le maillot, le ballon) en haute définition, mais votre téléphone n'a pas la puissance pour le faire instantanément sans se figer. C'est là qu'intervient la Super-Résolution Vidéo (VSR).

Le problème actuel ? La plupart des applications actuelles sont comme des personnes qui regardent seulement la frame précédente pour deviner la suivante. C'est un peu comme essayer de deviner la suite d'une histoire en ne lisant que le mot qui précède. Ça manque de contexte, et le résultat est souvent flou ou lent.

Les chercheurs de ce papier (publié à la conférence ICLR 2026) ont créé une nouvelle méthode appelée TS-Mamba. Voici comment ça marche, avec des analogies simples :

1. Le Problème : "Regarder seulement derrière soi"

Les méthodes actuelles sont comme un conducteur qui ne regarde que dans son rétroviseur immédiat pour changer de voie. Elles utilisent une seule image précédente pour deviner la suivante.

La limite : Si le ballon bouge vite ou si la caméra tourne, ces méthodes se trompent. Elles ne voient pas le "grand tableau".

2. La Solution : "La Carte au Trésor des Trajectoires"

Au lieu de regarder juste une image, TS-Mamba construit une trajectoire.

L'analogie : Imaginez que vous suivez un ballon de football. Au lieu de juste regarder où il était une seconde plus tôt, vous tracez sa ligne de mouvement sur plusieurs secondes. Vous savez exactement où il va, même s'il est caché derrière un joueur.
Dans le modèle : Le système identifie les "points clés" (les tokens) qui se ressemblent le plus dans les images précédentes, en suivant leur mouvement réel. C'est comme choisir les meilleurs témoins oculaires pour raconter l'histoire, au lieu de prendre n'importe qui au hasard.

3. Le Moteur : "Le Mamba et le Labyrinthe"

Le cœur de ce système s'appelle Mamba. C'est une technologie très récente et très efficace (comme un super-lecteur de livres) qui peut lire de très longues séquences d'images sans se fatiguer (faible consommation d'énergie).

Cependant, lire une image 2D (comme une photo) en ligne droite (1D) crée des coupures bizarres, un peu comme si vous lisiez un livre en sautant des lignes au hasard.

L'innovation : Les chercheurs ont ajouté des "décalages" (Shifts).
L'analogie : Imaginez que vous devez lire une page de livre. Si vous lisez ligne par ligne, vous perdez le lien entre la fin d'une ligne et le début de la suivante. Le TS-Mamba utilise une technique appelée "balayage de Hilbert" (un chemin en forme de labyrinthe) et ajoute des petits décalages (comme glisser la page légèrement vers la gauche ou la droite) pour combler les trous.
Résultat : Plus de coupures, une image continue et fluide, comme si vous lisiez le livre sans jamais perdre le fil.

4. L'Entraînement : "Le Professeur Exigeant"

Pour que le système apprenne à bien choisir les bons points de l'image, les chercheurs ont inventé une fonction de perte "consciente de la trajectoire".

L'analogie : C'est comme un professeur qui ne se contente pas de corriger la copie finale. Il vérifie aussi si l'élève a bien suivi le chemin pour arriver à la réponse. Si l'élève choisit le mauvais point de référence (mauvaise trajectoire), le professeur le corrige immédiatement. Cela rend le système beaucoup plus précis.

🏆 Pourquoi c'est génial ? (Les Résultats)

Le papier compare TS-Mamba à six autres méthodes de pointe. Voici ce qu'ils ont découvert :

Plus rapide et plus léger : TS-Mamba consomme 22,7 % moins d'énergie (calculs) que les meilleurs concurrents. C'est comme avoir une voiture de sport qui consomme moins d'essence que les autres.
Plus net : L'image restaurée est plus claire, avec moins d'artefacts (c'est-à-dire moins de "carrés" flous).
Idéal pour le direct : Grâce à sa légèreté, il peut fonctionner en temps réel sur des applications comme les visioconférences ou le streaming en direct, là où les autres méthodes trop lourdes échouent.

En résumé

Imaginez que vous essayez de reconstruire un puzzle géant en direct.

Les anciennes méthodes regardaient juste le morceau posé juste avant.
TS-Mamba, lui, regarde le mouvement de toutes les pièces depuis le début, trace leur chemin, et utilise une technique intelligente pour s'assurer qu'aucune pièce n'est mal placée, le tout en utilisant très peu d'énergie.

C'est une avancée majeure pour rendre les vidéos en direct sur nos téléphones plus nettes, plus fluides et moins gourmandes en batterie. 🚀📱

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La Super-Résolution Vidéo (VSR) en ligne vise à restaurer une image haute résolution (HR) actuelle à partir de sa version basse résolution (LR) et des images précédentes, avec des contraintes strictes de faible latence et de faible complexité computationnelle.

Limitations des méthodes existantes : La plupart des approches en ligne actuelles reposent sur des réseaux de neurones convolutifs (CNN) ou des mécanismes d'attention qui n'utilisent qu'une seule image précédente pour l'alignement temporel. Cela limite la modélisation des dépendances temporelles à long terme.
Défis des modèles récents : Bien que les Modèles d'Espace d'État (SSM), comme Mamba, offrent une complexité linéaire et un champ réceptif global, leur application à la VSR en ligne rencontre deux obstacles majeurs :
1. La perte de continuité spatiale inhérente aux opérations de balayage (scanning) qui convertissent les images 2D en séquences 1D.
2. La difficulté à agréger efficacement des informations temporelles à long terme sans introduire une surcharge computationnelle excessive.

2. Méthodologie : TS-Mamba

Les auteurs proposent TS-Mamba, un modèle basé sur des SSM décalés (Shifted SSMs) et conscients des trajectoires. L'architecture se décompose en trois étapes clés :

A. Génération de Trajectoires et Sélection de Tokens

Au lieu d'utiliser toutes les images précédentes, le modèle construit d'abord des trajectoires au sein de la vidéo.

Pour chaque token de l'image courante, le système identifie les tokens les plus similaires dans les images précédentes le long de ces trajectoires.
Cela permet de sélectionner un sous-ensemble pertinent de tokens ( $V_s$ ) pour l'agrégation, réduisant ainsi la charge de calcul tout en préservant l'information temporelle pertinente.

B. Module d'Agrégation Mamba Décalé Conscient des Trajectoires (TSMA)

C'est le cœur de l'innovation. Le module TSMA agrège les tokens sélectionnés avec le token courant en utilisant des blocs SSM décalés.

Problème de discontinuité : Les balayages de Hilbert (utilisés pour convertir l'image 2D en 1D) créent des discontinuités spatiales, tant à l'intérieur des fenêtres (intra-window) qu'entre les fenêtres (inter-window).
Solution "Scan-Shift-Scan" : Pour compenser ces pertes, les auteurs proposent une séquence combinant un balayage standard, une opération de décalage (shift) de la fenêtre, et un second balayage.
Blocs S-SSMs : Deux branches parallèles sont utilisées :
1. IntraWCB (Intra-Window Compensation Branch) : Utilise une procédure spécifique (ex: Scan-1 $\to$ Décalage Haut de 1 $\to$ Scan-3) pour éliminer les discontinuités internes.
2. InterWCB (Inter-Window Compensation Branch) : Utilise des décalages diagonaux (ex: UL(3)) pour combler les écarts entre les fenêtres.
Balayage Sélectif 3D (SS3D) : Les tokens sont balayés le long de la dimension temporelle en suivant les trajectoires, permettant une interaction spatiale et temporelle efficace.

C. Fonction de Perte Consciente des Trajectoires

Pour garantir la précision de la sélection des tokens, les auteurs introduisent une nouvelle fonction de perte ( $L_{trj}$ ). Elle supervise la génération des trajectoires en comparant les trajectoires estimées sur l'image LR avec les trajectoires réelles (obtenues par sous-échantillonnage des trajectoires HR), assurant ainsi que le modèle apprend à suivre correctement le mouvement.

3. Contributions Clés

Premier modèle VSR en ligne basé sur SSM : TS-Mamba est le premier à utiliser des modèles d'espace d'état pour l'agrégation d'informations spatio-temporelles à long terme au niveau des tokens dans un contexte en ligne.
Introduction des trajectoires dans Mamba : Utilisation innovante des trajectoires vidéo pour sélectionner dynamiquement les tokens les plus pertinents, évitant le traitement de toutes les images précédentes.
Blocs SSM Décalés (Shifted SSMs) : Conception de blocs basés sur des balayages de Hilbert et des opérations de décalage spécifiques pour compenser les pertes de continuité spatiale, améliorant ainsi la qualité de reconstruction sans augmenter significativement la complexité.
Efficacité et Performance : Le modèle atteint des performances de pointe (SOTA) tout en réduisant considérablement la complexité computationnelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données de référence : REDS4, Vid4 et Vimeo-90K-T, avec des dégradations par échantillonnage bicubique (BI) et par flou (BD).

Performance de Qualité : TS-Mamba surpasse six modèles de référence en ligne (y compris BasicVSR++, FDAN, KSNet, TMP) en termes de PSNR et SSIM. Par exemple, sur REDS4 (BI), il atteint 30.73 dB, surpassant BasicVSR++* (30.44 dB).
Réduction de Complexité : Le modèle réalise une réduction de 22,7 % des MACs (Multiplications-Accumulations) par rapport aux méthodes SOTA les plus performantes, tout en maintenant un nombre de paramètres similaire (~3.0 M).
Vitesse : Il atteint une vitesse d'inférence de 33.5 FPS sur des vidéos 720p, se classant deuxième parmi les méthodes en ligne testées, juste derrière TMP (qui utilise des accélérateurs CUDA spécifiques mais avec un coût MACs plus élevé).
Études Ablatives : Les tests confirment que chaque composant (génération de trajectoires, perte de trajectoire, branches de compensation intra/inter-window) contribue significativement à la performance finale.

5. Signification et Impact

Ce travail est significatif car il comble le fossé entre l'efficacité computationnelle des modèles SSM (Mamba) et les exigences de la super-résolution vidéo en temps réel.

Innovation Architecturale : En résolvant le problème de la discontinuité spatiale des balayages de Hilbert via des opérations de décalage intelligentes, le papier ouvre la voie à l'utilisation généralisée des SSM dans les tâches de vision par ordinateur nécessitant une continuité spatiale fine.
Applicabilité Réelle : La capacité à modéliser des dépendances temporelles à long terme tout en restant léger et rapide rend TS-Mamba particulièrement adapté aux applications critiques comme la visioconférence en direct et la diffusion en streaming.
Nouvelle Direction : L'intégration de la notion de "trajectoire" pour la sélection de tokens dans les modèles SSM suggère une nouvelle direction de recherche pour l'agrégation d'informations spatio-temporelles efficaces.

En résumé, TS-Mamba démontre qu'il est possible de dépasser les méthodes CNN et Transformer traditionnelles en VSR en ligne en combinant une modélisation temporelle intelligente (trajectoires) avec l'efficacité des modèles d'espace d'état, le tout en corrigeant leurs défauts géométriques inhérents.