LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstgalerie bezoekt waar de gids (de computer) elke afbeelding moet beschrijven en elk object erin moet benoemen. De uitdaging is dat de gids nooit alle mogelijke objecten heeft gezien. Hij moet dus op basis van een beschrijving (tekst) raden wat hij ziet, zelfs voor dingen die hij niet kent. Dit heet "Open-Vocabulary Semantic Segmentation".

Het probleem met de oude gidsen (bestaande AI-modellen) was dat ze vaak te vaag waren. Als je vroeg om een "stoel", zagen ze alleen een algemene vorm. Als je vroeg om een "rode fluwelen stoel met gouden poten", konden ze dat onderscheid niet maken. Ze misten de fijne details.

LSMSeg is een nieuwe, slimme gids die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Van saaie lijsten naar levendige verhalen (De Tekst-Verbeteraar)

Stel je voor dat je een gids vraagt om een "kat" te beschrijven.

De oude manier: De gids zegt alleen: "Een foto van een kat." Dat is saai en niet specifiek genoeg.
De LSMSeg-methode: De auteurs vragen een super-slimme taalcomputer (GPT-4) om een verhaal te schrijven. De gids krijgt nu een lijstje met details: "Kijk naar de kleur (zwart of oranje), de vorm (slank en behendig), de textuur (zachte vacht) en de grootte."

De gids gebruikt deze rijke beschrijvingen om de foto veel beter te begrijpen. Het is alsof je van een saaie stempel ("Dit is een kat") overschakelt naar een gedetailleerde schilderijbeschrijving. Hierdoor kan de computer precies zien welke pixel bij welke beschrijving hoort.

2. De "Niet-Belangrijke" Lijst Wegdoen (De Filter)

Stel je voor dat je in een enorme bibliotheek moet zoeken naar één specifiek boek. Als je elke boekenplank moet controleren, duurt het eeuwen.

Het probleem: De computer moet vaak duizenden mogelijke woorden controleren (bijv. "auto", "boom", "vliegtuig", "slak", "koffie"), ook al staat er in de foto alleen een auto.
De oplossing: LSMSeg heeft een slimme Filter. Deze kijkt snel naar de foto en zegt: "Oké, hier staat geen slak en geen koffie. Die woorden kunnen we negeren."
Het resultaat: De computer hoeft alleen nog maar te zoeken naar de 30 of 40 woorden die echt relevant zijn. Dit maakt het proces veel sneller en bespaart energie, net als het wegdoen van onnodige rommel voordat je gaat werken.

3. De Twee Ogen van de Gids (De Visuele Verbeteraar)

Stel je voor dat de gids twee brillen heeft:

Bril 1 (CLIP): Deze bril is goed in het begrijpen van de sfeer van een foto (bijv. "dit is een buitenlands landschap"), maar ziet de details van individuele bladeren of takken niet scherp.
Bril 2 (SAM - Segment Anything Model): Deze bril is een meester in het zien van vormen en randen. Hij kan perfect zien waar een boom eindigt en de lucht begint, maar hij weet niet altijd wat voor soort boom het is.

LSMSeg combineert deze twee brillen. Hij gebruikt de sfeer van Bril 1 en de scherpe randen van Bril 2. Maar hij doet het slim: hij geeft niet aan beide brillen even veel gewicht. Hij leert zelf hoeveel hij moet vertrouwen op de sfeer en hoeveel op de scherpe randen, afhankelijk van de situatie. Hierdoor ziet de gids niet alleen wat er is, maar ook precies waar het zit, tot op het niveau van één pixel.

Waarom is dit belangrijk?

Vroeger moest je een computer trainen met duizenden voorbeelden van elke specifieke auto, hond of stoel. Met LSMSeg kan de computer nu dingen herkennen die hij nooit eerder heeft gezien, zolang je maar een goede beschrijving geeft.

Snelheid: Door de filter werkt het sneller.
Nauwkeurigheid: Door de rijke beschrijvingen en de combinatie van de twee "brillen" is het resultaat veel preciezer.
Flexibiliteit: Je kunt de computer vragen om "een oude, roestige fiets" te vinden, en hij zal dat doen, zelfs als hij in zijn training nooit een roestige fiets heeft gezien.

Kortom: LSMSeg is als het geven van een superkrachtige beschrijvingstool en een set van twee perfecte brillen aan een kunstcriticus. Hierdoor kan hij niet alleen zien wat er op de foto staat, maar ook precies aangeven waar elk klein detail zit, zelfs voor dingen die hij nog nooit heeft gezien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Open-vocabulary semantische segmentatie (OVSS) heeft tot doel elk pixel in een afbeelding te classificeren binnen een potentieel onbeperkte reeks semantische categorieën, geleid door willekeurige of beschrijvende tekstinput. Bestaande methoden vertrouwen zwaar op vooraf getrainde vision-language modellen (zoals CLIP) om visuele en tekstuele representaties op pixel-niveau uit te lijnen.

Er zijn echter twee fundamentele beperkingen in de huidige staat der techniek:

Tekstuele Representaties: Bestaande methoden gebruiken vaak simpele teksttemplates (bijv. "een foto van een {klasse}"). Deze ontberen de semantische rijkdom die nodig is voor fijne-granulair onderscheid (bijv. het verschil tussen vleermuis als dier en als sportartikel). Ze negeren de kwaliteit van de tekstinput, wat cruciaal is voor nauwkeurige uitlijning.
Visuele Representaties: Modellen zoals CLIP zijn getraind op beeldniveau (contrastief leren) en vangen voornamelijk globale context in plaats van lokale, pixel-gerichte semantiek. Dit leidt tot een gebrek aan precisie bij de segmentatie van specifieke objectgrenzen.

Methodologie: LSMSeg

De auteurs stellen LSMSeg voor, een raamwerk dat Large Language Models (LLMs) en visuele foundation modellen combineert om de uitdagingen van OVSS aan te pakken. De architectuur bestaat uit drie hoofdcomponenten:

1. Generatie van Verrijkte Tekstprompts (Text Prompts Generation)

In plaats van simpele templates, gebruikt LSMSeg GPT-4 om rijke, attributegerichte beschrijvingen te genereren.

Attribuutselectie: GPT-4 wordt gevraagd om de meest relevante visuele attributen te identificeren (kleur, vorm, grootte, textuur, materiaal, positie, patroon, actie/staat, contextuele relaties).
Generatie: Voor elke klasse worden gedetailleerde zinnen gegenereerd die deze attributen beschrijven, binnen de token-limiet van CLIP (77 tokens).
Optimalisatie: De attributen worden geoptimaliseerd op basis van hun bijdrage aan de segmentatieprestaties, waarna de top-k attributen worden gecombineerd tot een uitgebreide prompt. Dit resulteurt in semantisch rijkere tekstembeddings die beter in staat zijn om fijne visuele verschillen te onderscheiden.

2. Katern-filtering Module (Category Filtering Module - CFM)

Om de rekenkosten te verlagen en ruis te verminderen, introduceert LSMSeg een filtermechanisme.

Werking: Na het berekenen van de initiële kostenkaart (cost map) tussen visuele features en tekstembeddings, worden irrelevante klassen gefilterd.
Top-k Selectie: De module selecteert de top- $k$ tokens (klassen) met de hoogste correlatie met de visuele features. Alleen deze geselecteerde tokens worden gebruikt voor verdere verwerking.
Doel: Dit vermindert de parametercomplexiteit en versnelt het trainingsproces zonder significante nauwkeurigheidsverlies, door zich te concentreren op de meest waarschijnlijke klassen.

3. Feature Refinement Module

Om het gebrek aan pixel-niveau precisie in CLIP te compenseren, integreert LSMSeg features van het Segment Anything Model (SAM).

Fusie: De visuele features van een bevroren SAM-image encoder worden via een lichtgewicht adapter geprojecteerd naar de CLIP-ruimte.
Adaptieve Weging: Een "Weight Generator" leert adaptieve coëfficiënten om de bijdrage van CLIP (globale context) en SAM (lokale precisie) te balanceren.
Verfijning: De gefuseerde features worden verwerkt door Swin-Transformer blokken (voor ruimtelijke verfijning) en lineaire Transformer blokken (voor klassen-verfijning). Dit resulteert in een verfijnde kostenkaart die zowel ruimtelijke als semantische informatie beter benut.

Belangrijkste Bijdragen

LLM-gedreven Prompt Engineering: Een pionierende aanpak die LLMs (GPT-4) gebruikt om attribut-rijke tekstprompts te genereren, wat de uitlijning tussen tekst en visuele pixels aanzienlijk verbetert ten opzichte van statische templates.
Geïntegreerde Visuele Verbetering: Een nieuwe Feature Refinement Module die de sterke ruimtelijke priors van SAM combineert met CLIP, waardoor de beperkingen van CLIP op pixel-niveau worden opgeheven.
Efficiëntie en Nauwkeurigheid: De combinatie van de Category Filtering Module en de lightweight adapter zorgt voor state-of-the-art prestaties met een lagere latentie en minder rekenkosten dan bestaande methoden.

Resultaten

LSMSeg is uitgebreid getest op zes populaire benchmarks: ADE20K (847 en 150 klassen), Pascal Context (459 en 59 klassen) en Pascal VOC.

Prestaties: LSMSeg bereikt state-of-the-art resultaten op alle geteste datasets.
- Op PC-459 (Pascal Context-459) bereikt het een mIoU van 20.3% (met ViT-B/16), wat een verbetering is van +1.3% t.o.v. de vorige beste methode (CAT-Seg).
- Op ADE20K-150 behaalt het 33.2% mIoU, een verbetering van +1.4% t.o.v. CAT-Seg.
- Met het grotere ViT-L/14 model bereikt het zelfs 25.6% op PC-459 en 38.5% op ADE20K-150.
Efficiëntie: Ondanks de toevoeging van LLM-generatie en SAM, behoudt LSMSeg een hoge efficiëntie. De inferentie-latentie is lager dan die van concurrenten zoals ZegFormer en OVSeg, dankzij de CFM die de rekenlast verlaagt.
Ablatie Studies: Experimenten tonen aan dat attributen zoals kleur, vorm, grootte en textuur het meest invloedrijk zijn. De combinatie van SAM en CLIP via de leerbare weging levert de beste resultaten op, wat aantoont dat deze componenten complementair zijn.

Betekenis en Impact

Dit paper markeert een verschuiving in de OVSS-literatuur door te benadrukken dat kwaliteit van tekstuele representaties even belangrijk is als visuele representaties. Door LLMs in te zetten om de semantische rijkdom van tekstprompts te maximaliseren, en deze te combineren met de ruimtelijke precisie van SAM, biedt LSMSeg een robuust en efficiënt raamwerk. Het bewijst dat het combineren van generatieve taalmodellen met visuele foundation modellen een krachtige route is om de kloof tussen globale beeldbegrip en pixel-nauwkeurige segmentatie te overbruggen, wat essentieel is voor toepassingen in dynamische en onvoorspelbare omgevingen.

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

1. Van saaie lijsten naar levendige verhalen (De Tekst-Verbeteraar)

2. De "Niet-Belangrijke" Lijst Wegdoen (De Filter)

3. De Twee Ogen van de Gids (De Visuele Verbeteraar)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: LSMSeg

1. Generatie van Verrijkte Tekstprompts (Text Prompts Generation)

2. Katern-filtering Module (Category Filtering Module - CFM)

3. Feature Refinement Module

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank