SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de compresser une vidéo pour l'envoyer par message. Traditionnellement, les logiciels de compression (comme ceux utilisés par Netflix ou YouTube) fonctionnent comme un chef cuisinier qui prépare chaque plat (chaque image de la vidéo) avec des ingrédients et des techniques totalement différents, même si les plats se ressemblent beaucoup. C'est efficace, mais cela demande beaucoup d'espace dans le frigo (la mémoire de l'ordinateur).

Récemment, une nouvelle méthode appelée INR (Représentation Neurale Implicite) est apparue. Au lieu de stocker les images, elle apprend une "recette" mathématique unique pour chaque vidéo. C'est comme si, au lieu de stocker une photo de votre chat, vous stockiez une petite formule qui permet de redessiner le chat à l'infini. C'est très compact, mais les recettes actuelles sont encore un peu lourdes.

Voici comment SRNeRV (le sujet de ce papier) change la donne, expliqué simplement :

1. Le problème : La répétition inutile

Les anciennes méthodes pour créer ces vidéos "à la demande" fonctionnent par étapes, comme une pyramide. On commence par une image floue et basse résolution, puis on l'agrandit, on l'agrandit encore, jusqu'à avoir une image HD.

Le problème, c'est que pour chaque étape d'agrandissement, les chercheurs construisaient un nouveau module de cerveau (un bloc de paramètres) complètement différent. C'est comme si vous engagiez un architecte différent pour dessiner chaque étage d'un gratte-ciel, alors que les plans de base (les murs, les fenêtres, les portes) sont presque identiques à chaque étage. C'est un gaspillage énorme d'espace et d'argent.

2. La solution SRNeRV : Le "Chef Cuisinier" universel

Les auteurs de SRNeRV ont eu une idée brillante basée sur un principe simple : ce qui se passe à un étage ressemble beaucoup à ce qui se passe à l'étage du dessus. C'est ce qu'ils appellent l'"auto-similarité".

Au lieu d'avoir des architectes différents pour chaque étage, ils proposent d'avoir un seul et même architecte qui travaille sur tous les étages, mais avec un petit ajustement local.

Ils divisent le travail de leur "architecte" en deux équipes :

L'équipe "Couleurs et Textures" (Mixage de canaux) : C'est l'équipe qui gère les concepts abstraits, comme savoir comment transformer une couleur en une autre. Cette équipe est identique pour tous les étages. C'est le gros morceau du cerveau (la majorité des paramètres). Au lieu de la copier 10 fois, on ne la stocke qu'une seule fois et on la réutilise encore et encore. C'est comme avoir un seul chef cuisinier expert en sauces qui travaille sur tous les plats du menu.
L'équipe "Détails Locaux" (Mixage spatial) : C'est l'équipe qui s'occupe des détails spécifiques à chaque étage, comme savoir si on doit dessiner un arbre flou (pour l'image basse résolution) ou un arbre net (pour l'image haute résolution). Cette équipe est différente pour chaque étage. C'est comme si chaque étage avait son propre décorateur d'intérieur pour adapter le style.

3. L'analogie du "Moule à Gâteau"

Imaginez que vous voulez faire un gâteau en plusieurs étages.

L'ancienne méthode : Vous fabriquez un moule en métal unique et coûteux pour chaque étage du gâteau. C'est lourd et cher.
La méthode SRNeRV : Vous avez un seul moule principal (l'équipe "Couleurs") que vous utilisez pour tous les étages. C'est le même moule, mais vous changez juste le papier cuisson ou un petit accessoire (l'équipe "Détails") selon la taille de l'étage que vous êtes en train de faire.

Résultat ? Vous gardez la capacité de faire un gâteau magnifique et détaillé, mais vous n'avez besoin de stocker qu'un seul moule principal au lieu de dix.

4. Pourquoi c'est génial ?

Grâce à cette astuce, SRNeRV devient beaucoup plus petit (moins de paramètres à stocker) tout en restant aussi performant, voire meilleur.

Gain d'espace : Comme on partage la partie la plus lourde du cerveau (le moule principal), la vidéo compressée prend beaucoup moins de place sur le disque dur ou dans le téléphone.
Meilleure qualité : En économisant de l'espace sur la partie "générale", on peut investir cet espace économisé dans les "détails locaux". Cela permet de mieux gérer les mouvements complexes ou les textes (comme dans les écrans d'ordinateur), là où les anciennes méthodes avaient du mal.

En résumé

SRNeRV, c'est comme passer d'une usine où chaque employé a sa propre boîte à outils complète, à une équipe où tout le monde partage la même boîte à outils principale (les outils lourds), mais garde son propre petit carnet de notes pour les détails spécifiques de sa tâche.

C'est une façon intelligente de dire : "Pourquoi réinventer la roue à chaque étage d'un immeuble, alors qu'on peut utiliser la même structure pour tous, en ajustant juste la décoration ?" Cela rend la compression vidéo plus rapide, plus légère et plus intelligente.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les représentations neuronales implicites (INR) sont devenues une approche prometteuse pour la représentation et la compression vidéo, car elles modélisent le signal vidéo comme une fonction continue apprise par un réseau de neurones. Cependant, les générateurs d'INR multi-échelles existants souffrent d'une redondance paramétrique significative.

Architecture actuelle : Les méthodes traditionnelles empilent des blocs de traitement indépendants pour chaque échelle de résolution (du bas niveau au haut niveau).
Limitation : Cette conception ignore la self-similarité d'échelle (l'idée que le processus de génération d'une échelle inférieure à une échelle supérieure est conceptuellement répétitif). Empiler des blocs indépendants pour chaque étape augmente inutilement la taille du modèle sans nécessairement améliorer la capacité d'apprentissage, ce qui nuit à l'efficacité de la compression.

2. Méthodologie : SRNeRV

Les auteurs proposent SRNeRV, un cadre récursif à l'échelle qui remplace l'architecture empilée par une architecture partagée et efficace en paramètres.

A. Principe de base : Self-similarité d'échelle

Inspirés par des concepts classiques comme la pyramide de Laplace et les réseaux récursifs, les auteurs postulent que la logique de transformation des caractéristiques d'une résolution à une autre est réutilisable. Au lieu d'apprendre des blocs distincts pour chaque étape de mise à l'échelle (upsampling), ils proposent d'appliquer récursivement le même bloc partagé.

B. Architecture Hybride de Partage de Paramètres

Le cœur de SRNeRV réside dans le découplage du bloc de raffinement (Refinement Block) en deux modules fonctionnels distincts, traités différemment :

Module de mélange spatial (Scale-Specific Spatial Mixing - $f_{SM}$ ) :
- Fonction : Agreger les informations locales et capturer les motifs spatiaux spécifiques à chaque échelle.
- Implémentation : Convolution profonde (Depthwise Convolution).
- Partage : Les paramètres ( $\theta_{SM}$ ) sont uniques pour chaque bloc et chaque échelle. Cela permet au modèle de s'adapter aux détails spatiaux spécifiques de chaque niveau de résolution.
Module de mélange de canaux (Scale-Invariant Channel Mixing - $f_{CM}$ ) :
- Fonction : Transformer les caractéristiques au niveau des canaux (généralement un réseau feed-forward ou FFN).
- Implémentation : Réseau Feed-Forward (FFN).
- Partage : Les paramètres ( $\theta_{CM}$ ) sont partagés sur toutes les échelles de mise à l'échelle.
- Justification : Ce module contient la majorité des paramètres du réseau. La logique de transformation des canaux est considérée comme invariante à l'échelle, ce qui permet de la réutiliser récursivement.

C. Processus de Génération

Le processus suit une approche "du grossier au fin" (coarse-to-fine) :

À partir d'une grille de caractéristiques initiale ( $x_0$ ), le réseau effectue $M$ étapes de mise à l'échelle.
À chaque étape, les caractéristiques sont upscalées, puis passées à travers une séquence de $L$ blocs SRNeRV.
Chaque bloc applique d'abord le mélange spatial spécifique à l'échelle, puis le mélange de canaux partagé.
La sortie d'une échelle devient l'entrée de l'échelle suivante.

D. Pipeline de Compression

Le modèle est entraîné pour ajuster une séquence vidéo spécifique (fitting par instance). Après l'entraînement, une phase de Quantization-Aware Training (QAT) est appliquée, suivie d'une compression arithmétique des poids quantifiés. Le débit binaire total est la somme des longueurs de code des paramètres spatiaux (spécifiques à l'échelle) et des paramètres de canaux (partagés).

3. Contributions Clés

Analyse de la self-similarité d'échelle : Première analyse systématique exploitant la similarité entre les échelles dans le processus de génération des INR, étendant la logique de l'INR de la coordonnée spatiale à la logique générative multi-échelle.
Cadre SRNeRV : Proposition d'un cadre récursif hautement compact basé sur un schéma de partage hybride (découplage spatial/canaux).
Validation Expérimentale : Démonstration que ce design améliore les performances taux-distorsion tout en réduisant drastiquement le nombre de paramètres, en particulier dans les scénarios favorables aux INR.

4. Résultats Expérimentaux

Les auteurs ont évalué SRNeRV sur plusieurs jeux de données standards (UVG, HEVC Classes B et E, et contenu d'écran - SCC) en comparaison avec des codecs traditionnels (H.266/VVC) et d'autres méthodes INR (HNeRV, Boost-NeRV, HiNeRV).

Performance Globale : SRNeRV surpasse systématiquement ses prédécesseurs directs (comme HiNeRV) et les autres bases INR sur tous les jeux de données testés.
Gain Taux-Distorsion : Les résultats montrent une amélioration significative du débit binaire (BDBR) pour une qualité équivalente.
Scénarios Favorables : L'amélioration est particulièrement marquée sur les séquences avec des arrière-plans simples ou redondants temporellement (Classes HEVC E et contenu d'écran).
- Explication : En partageant le gros module FFN (mélange de canaux) pour modéliser efficacement les arrière-plans statiques, le budget de paramètres est libéré pour les modules spatiaux spécifiques, qui peuvent alors se concentrer sur la capture des détails complexes du premier plan (mouvement, graphismes nets).
Ablation : La comparaison avec une version "FullShare" (partage total du bloc) montre que le partage complet améliore la base, mais que l'approche hybride (partage des canaux + spécificité spatiale) est cruciale pour équilibrer compacité et fidélité de reconstruction.

5. Signification et Impact

SRNeRV représente une avancée significative dans le domaine de la compression vidéo neuronale :

Efficacité Paramétrique : Il résout le problème de la redondance des paramètres dans les architectures multi-échelles sans sacrifier la qualité.
Nouveau Paradigme : Il valide l'hypothèse que la self-similarité d'échelle peut être exploitée de manière récursive dans les INR, similaire à la façon dont les réseaux récursifs sont utilisés en restauration d'images ou en génération (comme les modèles de diffusion).
Application Pratique : La réduction de la taille du modèle est cruciale pour le déploiement de la compression vidéo basée sur l'IA, où la taille du bitstream (incluant les poids du modèle) est un facteur limitant.

En résumé, SRNeRV démontre qu'une conception architecturale intelligente, basée sur le partage sélectif de paramètres, peut amplifier les forces intrinsèques des représentations neuronales implicites pour la vidéo.