Tokenizing Semantic Segmentation with RLE

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de ce papier de recherche, imagée et simplifiée, comme si nous en discutions autour d'un café.

🎨 Le Concept de Base : Transformer l'Image en Histoire

Imaginez que vous voulez décrire une image (ou une vidéo) à un ami qui ne peut pas la voir.

Les méthodes classiques (comme les modèles de segmentation traditionnels) agissent comme un peintre. Ils peignent chaque pixel de la toile, un par un, en disant : "Ce pixel est rouge, celui-ci est bleu, celui-ci est vert..." C'est précis, mais c'est lent et ça demande beaucoup d'énergie pour peindre chaque point individuellement.
La méthode de ce papier (Tokenizing Semantic Segmentation) agit comme un conteur. Au lieu de peindre pixel par pixel, le modèle raconte une histoire. Il dit : "Il y a un gros bloc rouge qui commence ici et qui dure 50 centimètres, puis un petit bloc bleu qui commence là et dure 10 centimètres..."

C'est ce qu'on appelle la modélisation du langage. Le modèle ne "voit" pas l'image comme une grille de pixels, mais comme une séquence de mots (des "tokens") qu'il doit prédire les uns après les autres, comme un chatbot qui complète une phrase.

📏 L'Outil Magique : Le RLE (Le "Compteur de Pas")

Pour que le conteur puisse fonctionner, il faut résumer l'image. Les auteurs utilisent une technique appelée Encodage par Longueur de Course (RLE).

Imaginez que vous devez décrire un tapis de sol avec des carrés noirs et blancs.

Sans RLE : "Noir, noir, noir, blanc, blanc, noir, noir..." (C'est long et ennuyeux).
Avec RLE : "3 noirs, 2 blancs, 2 noirs..." (C'est court et efficace).

Dans ce papier, ils transforment les masques de segmentation (les zones colorées de l'image) en une liste de ces "paquets" de pixels. Le modèle apprend alors à prédire la prochaine "paquet" (où il commence et combien il est long) au lieu de prédire chaque pixel.

🎬 Le Défi Vidéo : Le Temps comme une Couleur

Le vrai défi, c'est de faire ça avec une vidéo. Une vidéo, c'est une pile d'images qui bougent.
Si on traite chaque image séparément, on perd le mouvement. Si on les empile bêtement, la liste de mots devient trop longue pour que l'ordinateur la lise (comme essayer de lire un roman entier d'un seul coup sans respirer).

Les auteurs ont eu une idée brillante : le Temps comme une Catégorie.
Imaginez que vous décrivez une balle qui bouge.

Au lieu de dire : "Image 1 : balle ici. Image 2 : balle là."
Ils disent : "Balle-Image1, Balle-Image2, Balle-Image3".
Ils créent un "super-mot" qui combine ce que c'est (la balle) et quand c'est (l'image 1, 2 ou 3). C'est comme si vous donniez un nom spécial à chaque instant de la vie d'un objet. Cela permet de compresser énormément l'information.

🧩 Les Astuces pour ne pas exploser la mémoire

Les ordinateurs ont une mémoire limitée (comme un sac à dos). Plus l'image est grande, plus le "sac" doit être gros.

Découpage (Sliding Windows) : Au lieu de regarder toute une grande photo d'un coup, ils la découpent en petits carrés (comme des tuiles) et les traitent un par un.
Réduction (Subsampling) : Ils regardent l'image un peu moins en détail (comme regarder une photo à travers un petit trou) pour réduire la taille de la liste de mots, tout en gardant l'essentiel.
Le "Background" comme classe : Ils traitent le fond (le ciel, le mur) comme un objet à part entière pour simplifier les calculs.

🏆 Les Résultats : Comment ça se passe ?

Les auteurs ont testé leur méthode sur deux types de vidéos :

La glace sur une rivière (ARIS) : Pour distinguer la glace de l'eau.
Des cellules en laboratoire (IPSC) : Pour compter et suivre des cellules qui bougent.

Le verdict ?

Leur méthode est aussi bonne que les meilleures méthodes actuelles (les "peintres" classiques) sur ces tâches spécifiques.
Elle est particulièrement forte pour localiser les objets (savoir où ils sont) plutôt que pour les classer parfaitement.
Le gros bémol : Ils manquent de puissance de calcul. Avec un ordinateur plus puissant, ils pourraient probablement faire encore mieux. Mais ils ont partagé leur code pour que d'autres puissent continuer le travail.

🚀 En Résumé

Ce papier propose de changer de lunettes pour voir les images. Au lieu de les voir comme une grille de pixels statique, ils les transforment en une histoire séquentielle (une suite de mots) que l'ordinateur peut lire et prédire.

C'est comme passer de la peinture à l'huile (lente, pixel par pixel) à la poésie (rapide, efficace, qui résume l'essence de l'image). C'est une étape vers une intelligence artificielle qui "lit" le monde visuel comme nous lisons un livre, mot après mot.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Tokenizing Semantic Segmentation with RLE" (Tokenisation de la segmentation sémantique avec RLE) en français.

1. Problématique

Les modèles de vision par ordinateur traditionnels produisent généralement des sorties continues et de taille fixe (matrices d'images), ce qui est inadapté pour des tâches où la sortie est intrinsèquement sparse et discrète, comme la détection d'objets ou le suivi multi-objets. Bien que la segmentation sémantique soit une tâche de reconnaissance dense, elle peut également bénéficier d'une approche basée sur la tokenisation.

L'objectif de cet article est de proposer une approche unifiée pour la segmentation sémantique (images et vidéos) en modélisant les masques de segmentation comme des séquences de tokens discrets via un modèle de langage (autoregressif). Le défi principal réside dans la compression efficace de ces séquences pour les rendre gérables par des modèles de type Transformer (comme Pix2Seq), tout en évitant les goulots d'étranglement liés à la mémoire GPU, particulièrement pour les vidéos et les images haute résolution.

2. Méthodologie

L'approche repose sur l'utilisation du Codage par Longueurs de Séquences (Run-Length Encoding - RLE) pour discrétiser les masques de segmentation, suivie d'un entraînement d'un modèle de langage modifié pour prédire ces tokens.

A. Tokenisation RLE

Principe : Un masque de segmentation est aplati (en ordre ligne par ligne ou colonne par colonne) et converti en une séquence de paires (ou triplets pour les masques multi-classes) : (start, length) ou (start, length, class_id).
Avantages : Le RLE est une compression sans perte qui est robuste au bruit (contrairement aux polygones ou aux quadtrees, où un token manquant peut dégrader toute la forme).
Contraintes : La longueur de la séquence ( $L$ ) et la taille du vocabulaire ( $V$ ) doivent être limitées pour s'adapter aux architectures existantes (ex: Pix2Seq).

B. Stratégies de Compression et d'Extension

Pour rendre cette approche applicable aux images haute résolution et aux vidéos, les auteurs proposent plusieurs techniques novatrices :

Fenêtres glissantes (Sliding Windows) et Sous-échantillonnage :
- Pour éviter des séquences trop longues, les images sont découpées en patches (ex: 640x640) et les masques sont sous-échantillonnés (ex: 80x80 ou 160x160) avant la tokenisation.
- Une stratégie de vote au niveau des pixels est utilisée pour fusionner les résultats des patches chevauchants lors de l'inférence.
Lengths-As-Class (LAC) - Images Statiques :
- Pour les images statiques multi-classes, au lieu d'utiliser 3 tokens par segment (start, length, class), la longueur et la classe sont combinées en un seul token composite.
- Cela réduit la longueur de la séquence de 50 % sans augmenter significativement la taille du vocabulaire (sauf si le nombre de classes est très élevé).
Time-As-Class (TAC) - Vidéo :
- Pour la vidéo, la dimension temporelle est intégrée aux IDs de classe. Un token représente la combinaison de la classe sur plusieurs frames (ex: class_frame1 - class_frame2).
- Cela permet de traiter la cohérence spatio-temporelle et de réduire le nombre de tokens de départ nécessaires, bien que la taille du vocabulaire augmente exponentiellement avec le nombre de frames ( $N$ ).
Lengths-and-Time-As-Class (LTAC) :
- Combinaison de LAC et TAC pour compresser davantage les séquences vidéo multi-classes en utilisant 2 tokens par segment.
Tokenisation Instance-Wise (IW) :
- Pour la segmentation panoptique, les séquences RLE sont générées par instance d'objet plutôt que par classe, permettant de distinguer les objets individuels.

C. Architecture

Le modèle utilise une extension de Pix2Seq avec un encodeur (ResNet-50) et un décodeur autoregressif. Les auteurs ont également exploré des décodeurs à plusieurs têtes (Multi-headed decoder) pour prédire chaque composant du RLE (start, length, class) séparément, réduisant ainsi la consommation mémoire.

3. Contributions Clés

Nouvelle approche unifiée : Première méthode appliquant la tokenisation RLE à la segmentation sémantique statique et vidéo via un modèle de langage.
Stratégies de compression innovantes : Introduction des schémas LAC, TAC et LTAC pour gérer la haute résolution et la dimension temporelle sans exploser la longueur de séquence.
Segmentation Panoptique : Proposition d'une méthode simple pour intégrer les informations d'instance dans le flux de tokens RLE.
Ressources Open Source : Publication du code et des modèles pré-entraînés pour faciliter la recherche future.
Analyse des compromis : Étude approfondie des compromis entre la résolution du masque, la longueur de la séquence ( $L$ ), la taille du vocabulaire ( $V$ ) et la consommation de mémoire GPU.

4. Résultats

Les modèles ont été évalués sur deux ensembles de données principaux : ARIS (glace fluviale) et IPSC (cellules souches), avec des expérimentations préliminaires sur COCO et Cityscapes.

Performance Globale : Les modèles basés sur le langage (P2S-SEG et P2S-VIDSEG) sont compétitifs avec les modèles d'état de l'art (comme Deeplab, UNet, Swin Transformer) sur les ensembles de données ARIS et IPSC.
Segmentation Statique (ARIS) : Le modèle P2S-SEG obtient les meilleurs résultats en termes de rappel (recall), surpassant les modèles conventionnels, notamment pour les tâches agnostiques aux classes (glace + eau). Cependant, la précision (precision) est parfois inférieure, indiquant une tendance à sur-estimer les classes majoritaires.
Segmentation Vidéo : L'apport de l'information vidéo (modèles P2S-VIDSEG) n'améliore pas systématiquement les résultats par rapport aux modèles statiques traitant uniquement la première frame, suggérant que le modèle n'exploite pas encore pleinement la cohérence temporelle ou que le goulot d'étranglement de la mémoire empêche l'entraînement optimal.
Limitations :
- Les performances chutent sur des ensembles de données très grands et complexes (COCO, Cityscapes) en raison de la résolution limitée des masques (S < 160) nécessaire pour maintenir $L < 4096$ .
- La tokenisation RLE rend difficile l'apprentissage des informations au niveau de l'objet global, car chaque objet est représenté par de nombreux tokens indépendants.
- Le déséquilibre de classe et le manque de mémoire GPU limitent la taille des lots (batch size), affectant la généralisation.

5. Signification et Perspectives

Cet article démontre la faisabilité de traiter la segmentation dense comme un problème de génération de langage, unifiant ainsi les tâches de vision par ordinateur sous un paradigme de tokenisation.

Signification : Cela ouvre la voie à l'utilisation de modèles de langage fondationnels (LLMs) pour des tâches de vision complexes, permettant une intégration plus fluide entre la compréhension sémantique et la génération de formes géométriques.
Défis futurs :
- Améliorer l'efficacité computationnelle (ex: calcul RLE en ligne dans TensorFlow) pour permettre l'augmentation de données et l'entraînement sur des résolutions plus élevées.
- Développer des schémas de tokenisation plus robustes pour les grands vocabulaires (ex: 100+ classes) sans explosion du vocabulaire.
- Intégrer des informations d'instance et de scène plus riches dans la séquence de tokens tout en conservant la robustesse au bruit du RLE.

En résumé, bien que limité par les ressources matérielles actuelles, ce travail pose les bases d'une nouvelle génération de modèles de segmentation unifiés, capables de traiter images et vidéos de manière cohérente via le langage.