TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le "Gros Sac de Vidéos"

Imaginez que vous voulez envoyer une vidéo par la poste.

Les méthodes actuelles (comme les DVD ou le streaming classique) : Elles découpent la vidéo en milliers de petits morceaux (des briques) et les emballent soigneusement. C'est efficace, mais ça prend du temps pour tout emballer (encoder) et parfois, la qualité baisse si le colis est trop lourd.
Les nouvelles méthodes "Intelligentes" (INR) : Au lieu d'envoyer les images, on envoie une recette de cuisine (un petit programme informatique) qui dit : "Si tu mélanges ces ingrédients de cette façon, tu obtiendras cette image". C'est génial car la recette est très petite !
- Le hic : Jusqu'à présent, pour chaque nouvelle vidéo, il fallait écrire une nouvelle recette entièrement à la main. C'était lent et fastidieux.
- L'alternative : On a essayé d'avoir un "Chef Cuisinier Robot" (un hyper-réseau) capable de deviner la recette pour n'importe quelle vidéo. Mais ce robot avait un problème : il devenait gigantesque et lent dès qu'on lui demandait de cuisiner des vidéos en haute définition (4K, 1080p). Il avait besoin d'une cuisine (mémoire) trop grande pour tenir dans un appartement.

🚀 La Solution : TeCoNeRV (Le Chef Magique)

Les auteurs proposent TeCoNeRV, une nouvelle façon de faire travailler ce "Chef Robot" pour qu'il soit rapide, léger et capable de gérer des vidéos en très haute qualité. Voici comment ils y arrivent, avec trois astuces magiques :

1. L'Astuce des "Briques de Lego" (Patch-Tubelets)

Au lieu de demander au robot de deviner la recette pour toute la vidéo d'un coup (ce qui est trop gros), ils découpent la vidéo en petits morceaux, comme des briques de Lego ou des tranches de pain.

L'analogie : Imaginez que vous devez peindre un mur géant. Au lieu de demander à un seul peintre de tout faire d'un coup (il serait épuisé), vous lui donnez un petit cadre de 30x30 cm. Il peint ce petit cadre, puis vous lui donnez le suivant.
Le résultat : Le robot n'a plus besoin d'une mémoire géante. Il peut travailler sur des vidéos en haute définition (même 1080p) car il ne regarde qu'un petit bout à la fois. C'est comme si on pouvait peindre un château en utilisant la même petite brosse !

2. L'Astuce du "Journal de Bord" (Encodage Résiduel)

Quand on regarde une vidéo, les images d'une seconde à l'autre sont souvent très similaires. Le visage d'une personne ne change pas radicalement en une fraction de seconde.

L'analogie : Si vous écrivez un journal, au lieu de réécrire "Il fait beau, le ciel est bleu, j'ai un chat" à chaque page, vous écrivez juste : "Rien de changé" ou "Le chat a bougé la queue".
Le résultat : TeCoNeRV enregistre la première recette complète, puis pour les suivantes, il n'enregistre que les petites différences (les "résidus"). Cela réduit énormément la taille du fichier envoyé, comme écrire un résumé au lieu de réécrire tout le livre.

3. L'Astuce de la "Danse Harmonieuse" (Cohérence Temporelle)

C'est l'ingrédient secret. Souvent, quand le robot devine la recette, il fait des sauts bizarres d'une image à l'autre, même si l'image ne change pas beaucoup. C'est comme un danseur qui trébucherait à chaque pas.

L'analogie : TeCoNeRV apprend au robot à danser. Il lui dit : "Ta prochaine recette doit ressembler beaucoup à la précédente, comme un mouvement fluide".
Le résultat : Les différences entre les recettes deviennent minuscules et prévisibles. Cela permet de compresser encore plus les données (comme un fil de danse très fin et lisse) sans perdre en qualité d'image.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à ces trois astuces, TeCoNeRV bat les records précédents :

Plus rapide : Il encode la vidéo beaucoup plus vite que les anciennes méthodes intelligentes.
Plus léger : Les fichiers compressés sont beaucoup plus petits (jusqu'à 36% de réduction).
Plus beau : L'image est plus nette, avec moins de flou, même en haute définition.
Le plus important : C'est la première fois qu'une méthode de ce type fonctionne bien sur des vidéos en 720p et 1080p. Avant, elles s'arrêtaient à des résolutions très basses (comme de petits écrans de téléphone).

En résumé

Imaginez que vous voulez envoyer une vidéo de vacances à un ami.

Avant : Vous deviez soit envoyer un gros camion de DVD (lourd), soit écrire un livre de recettes unique pour chaque vidéo (très long).
Avec TeCoNeRV : Vous envoyez un petit livret de recettes standard, et pour chaque vidéo, vous donnez juste les petites modifications nécessaires, en vous assurant que les changements sont fluides et logiques.

C'est une avancée majeure qui rend la compression vidéo par intelligence artificielle réelle, rapide et utilisable pour les vidéos de haute qualité que nous regardons tous les jours.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les Représentations Neuronales Implicites (INR) ont démontré des performances impressionnantes pour la compression vidéo en représentant une vidéo comme un réseau de neurones compact. Cependant, les approches traditionnelles souffrent de limitations majeures :

Encodage lent : Une INR doit être sur-ajustée (overfit) spécifiquement pour chaque vidéo, ce qui rend l'encodage prohibitivement lent pour des applications pratiques.
Limites des Hypernetworks : Les méthodes basées sur des hypernetworks (qui prédisent les poids d'un réseau "hyponetwork" pour une vidéo inconnue) améliorent la vitesse d'encodage mais échouent à passer à l'échelle pour les hautes résolutions (720p, 1080p).
Coût mémoire quadratique : Dans les méthodes existantes (comme NeRV-Enc), la mémoire requise pour prédire les poids augmente de manière quadratique avec la résolution de la vidéo, rendant l'entraînement et l'inférence à haute résolution impossibles avec les ressources actuelles.
Qualité et Redondance : Les prédictions de poids sont souvent bruyantes et ne respectent pas la cohérence temporelle, entraînant des résidus importants entre les clips successifs, ce qui nuit à la compression.

2. Méthodologie : TeCoNeRV

TeCoNeRV propose un cadre novateur pour surmonter ces limites en combinant trois contributions clés :

A. Décomposition Spatio-Temporelle (Patch-Tubelets)

Au lieu de prédire les poids pour une image complète (ce qui est coûteux en mémoire), TeCoNeRV découpe chaque clip vidéo en patchs spatio-temporels (tubelets).

Principe : Le problème de prédiction des poids est décomposé spatialement et temporellement. L'hypernetwork prédit les poids pour de petits volumes locaux ( $N \times 3 \times H_p \times W_p$ ) plutôt que pour l'ensemble de la trame.
Avantage : Cela rend la complexité computationnelle linéaire par rapport au nombre de patchs plutôt que quadratique par rapport à la résolution. Cela permet un entraînement indépendant de la résolution : un modèle entraîné sur des vidéos 480p peut être utilisé pour l'inférence sur des vidéos 720p ou 1080p.

B. Encodage Résiduel (Differential Encoding)

Pour exploiter la redondance temporelle entre les clips consécutifs :

Au lieu de stocker les paramètres uniques complets pour chaque clip, le système stocke les paramètres complets uniquement pour le premier clip d'une séquence.
Pour les clips suivants, seuls les résidus compacts (les différences) par rapport au clip précédent (ou au premier) sont encodés.
Cela réduit considérablement la taille du flux binaire (bitstream).

C. Régularisation de Cohérence Temporelle

Les hypernetworks entraînés uniquement pour la reconstruction tendent à produire des poids qui varient brutalement entre des clips visuellement similaires.

Approche : TeCoNeRV introduit une étape de fine-tuning avec une fonction de perte de régularisation temporelle ( $L_{temp}$ ).
Objectif : Cette perte pénalise les différences de premier ordre entre les espaces de poids de clips consécutifs ( $\ell_1$ -norme). Elle force l'évolution des poids à être lisse et corrélée à l'évolution du contenu vidéo.
Résultat : Cela induit une sparsité dans les résidus de poids, réduisant leur magnitude et leur variance, ce qui améliore drastiquement l'efficacité de la compression sans sacrifier la qualité visuelle.

3. Contributions Clés

Évolutivité aux hautes résolutions : TeCoNeRV est la première approche basée sur des hypernetworks à réussir la compression vidéo à haute résolution (480p, 720p, 1080p) en surmontant les goulots d'étranglement mémoire grâce à la stratégie de décomposition en patchs.
Efficacité de compression : L'utilisation de l'encodage résiduel combiné à la régularisation temporelle réduit considérablement la taille du flux binaire.
Contrôle du débit (Rate Control) : La force de la régularisation temporelle ( $\lambda_{temp}$ ) sert de mécanisme de contrôle, permettant d'ajuster le compromis qualité/débit de manière interprétable.
Indépendance de la résolution : La capacité à entraîner un modèle à basse résolution et à l'inférer à haute résolution, ce qui est crucial étant donné la rareté des données d'entraînement non compressées en très haute résolution.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données (UVG, HEVC, MCL-JCV, Kinetics-400) à différentes résolutions.

Performance PSNR :
- Sur le dataset UVG, TeCoNeRV améliore le PSNR de 2,47 dB à 480p et de 5,35 dB à 720p par rapport à la baseline NeRV-Enc*, tout en réduisant le débit de 36 %.
- À 720p, le gain est particulièrement marqué (25,22 dB contre 20,28 dB pour la baseline).
Vitesse d'encodage :
- La méthode est 1,5 à 3 fois plus rapide à l'encodage que NeRV-Enc*, tout en maintenant des vitesses de décodage compétitives.
Efficacité Mémoire :
- Contrairement aux méthodes précédentes qui nécessitent plus de 65 Go de RAM pour l'entraînement en 1080p, TeCoNeRV maintient une utilisation mémoire faible et constante (environ 2,9 Go pour l'entraînement et le fine-tuning), permettant l'entraînement sur du matériel grand public (ex: 4x RTX A4000).
Qualité Visuelle :
- Les reconstructions préservent mieux les détails structurels et les contours par rapport aux méthodes de base, évitant le flou et les artefacts de bordure grâce aux stratégies de chevauchement (overlap) et de recadrage (cropping).

5. Signification et Impact

TeCoNeRV représente une avancée majeure dans le domaine de la compression vidéo neuronale. Il résout le problème fondamental de l'évolutivité des hypernetworks, permettant enfin leur application pratique sur des vidéos de haute définition.

Changement de paradigme : Il démontre que la compression vidéo neuronale peut être à la fois rapide (encodage), efficace (débit réduit) et de haute qualité, comblant le fossé entre les codecs traditionnels (comme HEVC) et les méthodes neuronales.
Accessibilité : En réduisant les besoins en mémoire et en permettant l'entraînement sur des résolutions inférieures, il rend la recherche et le déploiement de ces technologies accessibles à un plus large éventail de ressources matérielles.
Futur : Ce travail ouvre la voie à l'exploration de modèles entraînés sur des corpus massifs et diversifiés pour une généralisation encore meilleure, tout en suggérant des pistes pour optimiser davantage la vitesse de décodage via le parallélisme GPU.

En résumé, TeCoNeRV établit un nouvel état de l'art pour la compression vidéo basée sur les INR, en combinant ingéniosité architecturale (patchs), stratégies de codage (résidus) et régularisation intelligente (cohérence temporelle).