Tokenizing Semantic Segmentation with RLE

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Vertalen van Beelden naar Woorden: Een Nieuwe Manier om Computers te Leren Kijken

Stel je voor dat een computer een foto of een video bekijkt. Normaal gesproken "denkt" de computer in een taal van getallen en vaste blokken, alsof hij een muur bouwt van identieke bakstenen. Dit werkt goed voor veel dingen, maar het is lastig als je de computer iets moet laten doen dat erg variabel is, zoals het uitsnijden van specifieke objecten (zoals een ijsblok of een cel) uit een foto. Het is alsof je probeert een verhaal te vertellen door alleen maar bakstenen op te stapelen; het kan, maar het is niet flexibel.

De auteurs van dit papier, Abhineet Singh en zijn team, hebben een slimme oplossing bedacht. Ze zeggen: "Laten we beelden niet zien als een muur van bakstenen, maar als een verhaal dat we kunnen uitschrijven."

Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. De Magische Rolband (RLE)

Stel je een zwart-wit tekening voor van een ijsberg op een witte achtergrond. In plaats van de computer te laten tellen hoeveel pixels zwart zijn en waar ze zitten, gebruiken de auteurs een techniek die RLE (Run Length Encoding) heet.

Dit werkt als een slimme rolband in een fabriek:

In plaats van te zeggen: "Pixel 1 is wit, pixel 2 is wit, pixel 3 is zwart, pixel 4 is zwart..."
Zegt de computer: "5 witte pixels, dan 3 zwarte pixels, dan 2 witte pixels..."

Ze noemen dit een "loop" of een "ritje". Het is veel korter en efficiënter. Het is alsof je in plaats van "A, A, A, A, B, B, C" te zeggen, gewoon "4 A's, 2 B's, 1 C" zegt.

2. Het Vertalen naar Woorden (Tokeniseren)

Nu hebben ze deze "ritjes" (de getallen) omgezet in woorden (tokens). De computer leert nu niet om een plaatje te tekenen, maar om een zin te schrijven.

De zin ziet er zo uit: "Begin op plek 10, ga 5 stappen, dit is een ijsberg. Begin op plek 20, ga 3 stappen, dit is een ijsberg."
De computer gebruikt een taalmodel (zoals een slimme chatbot) om deze zinnen te genereren. Het voegt woord voor woord toe aan de zin, net als wanneer jij een tekstbericht typt.

3. Video's: Een Filmrol in plaats van een Foto

Het echte probleem was: hoe doe je dit met een video? Een video is gewoon een heleboel foto's achter elkaar. Als je dat op de oude manier doet, wordt de "zin" die de computer moet schrijven zo lang dat hij het niet meer kan bevatten. Het is alsof je probeert een hele film in één zin te beschrijven; het wordt een onleesbare brij.

De auteurs hebben een slimme truc bedacht: Tijd als een Woord.
In plaats van te zeggen: "Foto 1: ijsberg hier. Foto 2: ijsberg daar," zeggen ze: "Dit is een 'ijsberg-die-beweegt-naar-rechts'."
Ze combineren de tijd (de volgorde van de foto's) met het object. Het is alsof je niet elke scène van een film apart beschrijft, maar de hele beweging in één woord vat. Hierdoor wordt de zin kort genoeg om te lezen, zelfs voor lange video's.

4. Waarom is dit zo cool?

Flexibiliteit: Normaal gesproken moet een computer precies weten hoeveel objecten er zijn voordat hij begint. Met deze methode kan de computer gewoon "schrijven" tot hij klaar is. Het is alsof je een verhaal schrijft en niet eerst moet weten hoe lang het verhaal wordt.
Alles in één: Ze kunnen hiermee niet alleen zien wat er op de foto staat (semantische segmentatie), maar ook welk specifiek object het is (instance segmentation). Ze kunnen zelfs een "panoptisch" overzicht maken: een complete beschrijving van alles wat je ziet, inclusief de achtergrond en elk individueel object.
Robuustheid: Als de computer één woord in de zin verkeerd schrijft (bijvoorbeeld "5" in plaats van "6"), is het plaatje nog steeds bijna goed. Bij andere methoden zou één foutje kunnen betekenen dat het hele object verdwijnt. Het is alsof je een zin leest: als je één letter mist, begrijp je de zin nog steeds.

De Uitdagingen

De auteurs geven eerlijk toe dat het niet perfect is. Het kost veel rekenkracht (hun "computers" zijn soms te klein voor de zwaarste taken) en het werkt nog niet even goed op gigantische datasets als de bekende COCO-dataset (met duizenden objecten). Maar het is een enorme stap in de juiste richting.

Conclusie

Kort samengevat: Deze onderzoekers hebben computers leren praten in plaats van alleen te tekenen. Ze hebben de complexe wereld van videobeelden vertaald naar een simpele, opeenvolgende lijst van woorden. Hierdoor kunnen computers beelden begrijpen alsof ze een verhaal lezen, wat hen flexibeler en slimmer maakt voor taken zoals het volgen van objecten in video's of het analyseren van medische beelden.

Het is een beetje alsof ze de computer een vertaler hebben gegeven die beelden omzet in een verhaal dat we allemaal kunnen begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Tokenizing Semantic Segmentation with RLE" in het Nederlands.

Titel: Tokenizing Semantic Segmentation with RLE

Auteurs: Abhineet Singh, Justin Rozeboom, en Nilanjan Ray (Universiteit van Alberta)

1. Het Probleem

Traditionele computerzichtsmodellen produceren vaak continu-waardige en vaste-grootte outputs (bijvoorbeeld pixelarrays of bounding boxes met vaste dimensies). Dit is suboptimaal voor taken zoals objectdetectie en semantische segmentatie, waar de output inherent spaarzaam (sparse) en discreet is. Hoewel dichte herkennings taken (zoals segmentatie) minder last hebben van dit probleem, biedt het modelleren van deze taken als sequenties van discrete tokens (taalmodelleringsbenadering) potentieel voor een unificatie van visuele taken.

De uitdagingen specifiek voor deze paper zijn:

Efficiëntie: Het genereren van volledige maskers als pixelarrays is inefficiënt.
Video-segmentatie: Het uitbreiden van token-gebaseerde methoden naar video is complex vanwege de enorme lengte van de token-sequenties die nodig zijn om meerdere frames te vertegenwoordigen.
Compressie: Bestaande methoden (zoals die van Chen et al. [3]) gebruiken vaak diffusiemodellen die maskers als continue waarden behandelen, waardoor het voordeel van discrete tokenisatie gedeeltelijk verloren gaat.

2. Methodologie

De auteurs stellen een nieuwe, verenigde aanpak voor die semantische segmentatie (zowel voor afbeeldingen als video) behandelt door maskers te tokeniseren met Run-Length Encoding (RLE) en deze sequenties autoregressief te genereren met een aangepast Pix2Seq-model.

Kerncomponenten:

RLE Tokenisatie: In plaats van pixels, wordt het masker omgezet in een 1D-vector van "runs". Een run wordt gedefinieerd als een opeenvolging van niet-nul pixelwaarden, vertegenwoordigd door een paar (start_index, lengte). Voor multi-class maskers wordt ook de class_id toegevoegd.
Architectuur: Het model is gebaseerd op Pix2Seq, een taalmodelleringsframework voor objectdetectie. De auteurs passen dit aan voor segmentatie door de output als een sequentie van RLE-tokens te laten voorspellen.
Beperkingen: De token-sequentielengte ( $L$ ) en de vocabulairegrootte ( $V$ ) moeten binnen de grenzen van GPU-geheugen blijven (maximaal $L \approx 4096$ en $V \approx 32K$ ).

Innovatieve Tokenisatiestrategieën:

Om de sequentielengte te comprimeren en video-segmentatie haalbaar te maken, introduceren de auteurs verschillende technieken:

Sliding Windows: Voor hoge resolutie afbeeldingen worden kleinere patches ( $P < I$ ) uit het beeld gehaald en getraind in plaats van het volledige beeld.
Subsampling: Maskers worden verlaagd naar een lagere resolutie ( $S = 80$ of $160$) om de RLE-sequenties korter te maken, met minimale kwaliteitsverlies (<10%).
Lengths-As-Class (LAC): Voor statische afbeeldingen worden de lengte en class gecombineerd tot één token. Dit reduceert het aantal tokens per run van 3 naar 2.
Time-As-Class (TAC): Voor video wordt de tijdsdimensie ( $N$ frames) gecombineerd met de class-ID. Elke unieke combinatie van klassen over de frames krijgt een eigen token. Dit maakt de start-index onafhankelijk van het aantal frames $N$ .
Length-and-Time-As-Class (LTAC): Een combinatie van LAC en TAC voor verdere compressie in video-taken.
Instance-Wise (IW) & Class-Wise (CW): Strategieën om instance-informatie toe te voegen voor panoptische segmentatie, waarbij maskers per instance of per klasse worden gegenereerd en gescheiden door class-tokens.

3. Belangrijkste Bijdragen

Nieuwe Benadering: Een unificatie van semantische en video-segmentatie via RLE-tokenisatie en autoregressieve taalmodellen.
Video-uitbreiding: Een methode om RLE-vertegenwoordiging uit te breiden naar video-maskers met behulp van TAC en LTAC, waardoor het mogelijk wordt om meerdere frames te verwerken zonder de token-lengte exponentieel te laten groeien.
Compressie-trucs: Introductie van LAC en TAC om de vocabulairegrootte en sequentielengte te optimaliseren.
Panoptische Segmentatie: Een mechanisme om instance-informatie in de token-sequentie te integreren.
Open Source: De code en getrainde modellen zijn publiek beschikbaar gesteld.

4. Resultaten

De modellen zijn geëvalueerd op twee datasets: ARIS (rivierijs) en IPSC (cellen in biologische beelden).

Prestaties: De voorgestelde modellen (P2S-SEG en P2S-VIDSEG) zijn concurrerend met de state-of-the-art conventionele modellen (zoals DeepLab, UNet, en Swin Transformer), vooral op de ARIS-dataset.
Recall vs. Precision: Taalmodellen presteren over het algemeen beter op recall (het vinden van objecten) dan op precision (het correct classificeren van pixels), wat leidt tot een iets hogere recall dan conventionele modellen, maar soms lagere precision.
Video-prestaties: Er is geen consistente verbetering gevonden bij het gebruik van video-informatie (meerdere frames) ten opzichte van statische input, waarschijnlijk vanwege het gebrek aan tijdsredundantie in segmentatie en beperkingen in de batch-grootte.
Beperkingen: De prestaties op grotere datasets (zoals COCO en Cityscapes) zijn momenteel lager dan bij conventionele modellen, voornamelijk door de beperkte resolutie van de maskers ( $S < 160$ ) en de hardware-bottleneck (GPU-geheugen) die training op hogere resoluties en grotere batch-groottes verhindert.

5. Betekenis en Toekomstperspectief

Paradigmaverschuiving: Dit paper draagt bij aan de groeiende trend om visuele taken te modelleren als taalmodelleringsproblemen, wat een verenigde architectuur mogelijk maakt voor zowel spaarzame (detectie) als dichte (segmentatie) taken.
Robuustheid: RLE biedt een robuuste representatie; het verlies van enkele tokens heeft minder impact op de algehele masker-kwaliteit dan bij polygon-gebaseerde methoden.
Toekomst: De auteurs identificeren hardware-bottlenecks als de belangrijkste beperking. Toekomstig werk richt zich op het verbeteren van de training op hogere resoluties, het ontwikkelen van betere loss-functies voor multi-headed decoders, en het toepassen van deze methoden op grootschalige datasets en domeinen zoals medische beeldvorming.

Conclusie: Hoewel de huidige implementatie beperkt wordt door beschikbare rekencapaciteit, bewijst het paper dat tokenisatie via RLE een veelbelovende en competitieve route is voor semantische en video-segmentatie, met potentieel voor verdere optimalisatie en uitbreiding.