Tokenizing Semantic Segmentation with RLE
Cette article présente une approche unifiée de la segmentation sémantique pour les images et les vidéos qui transforme les masques en séquences de tokens discrets via un codage par longueurs de course (RLE) et un modèle de langage autorégressif, tout en intégrant des stratégies de compression et des informations d'instances pour la segmentation panoptique.