Mask-aware inference with State-Space Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet maken, maar je hebt een doek dat vol zit met gaten. Sommige gaten zijn klein, andere zijn groot, en sommige hebben een rare vorm. Normale kunstenaars (of in dit geval, de huidige AI-modellen) proberen het hele doek te schilderen alsof het perfect is. Ze vullen de gaten met een standaard kleur (vaak zwart of wit) en proberen daaroverheen te werken. Het resultaat? De verf loopt door de gaten, de lijnen worden vervormd en het eindresultaat ziet er rommelig uit.

Dit is precies het probleem dat deze paper oplost. De auteurs hebben een nieuwe manier bedacht om met "gebroken" of onvolledige data om te gaan, speciaal voor een heel nieuw en krachtig type AI dat Mamba heet.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" AI

Stel je voor dat je een supersterke robot hebt (de Mamba-AI) die foto's kan begrijpen. Deze robot is geweldig omdat hij snel is en heel goed kan kijken naar het hele plaatje tegelijk. Maar deze robot heeft een groot nadeel: hij is niet slim genoeg om te zien wat er mist.

Als je hem een foto geeft van een auto, maar de helft van de auto is weg (bijvoorbeeld door een sensorfout of een vlek op de lens), denkt de robot: "Oké, die zwarte vlek is gewoon een deel van de auto." Hij probeert die vlek te analyseren alsof het echte data is. Dit verpest zijn conclusie. Het is alsof je een chef-kok vraagt om een soep te maken, maar je geeft hem een kom met gaten erin en zegt: "Maak maar, de gaten zijn ook ingrediënten." De soep wordt onsmakelijk.

2. De Oplossing: De "Masker-Gevoelige" Robot (PVM)

De auteurs hebben een nieuwe bouwsteen bedacht, genaamd PVM (Partial Vision Mamba). Je kunt dit zien als een slimme bril die de robot opzet.

De oude manier: De robot kijkt naar het hele doek en probeert alles te vullen, inclusief de gaten.
De nieuwe manier (PVM): De robot kijkt door zijn bril en ziet precies waar de gaten zitten. Hij zegt: "Ah, hier is data, hier is data, en hier is een gat. Ik ignoreer het gat volledig en focus alleen op de echte data."

Dit werkt net als een rekenmachine voor een bouwproject. Als je een muur bouwt en er ontbreekt een baksteen, telt de oude rekenmachine die leegte mee als een baksteen en zegt: "De muur is te zwaar." De nieuwe rekenmachine (PVM) zegt: "Die plek is leeg, ik tel die niet mee, en ik bereken de gewicht alleen op de bestaande stenen."

3. Hoe werkt het precies? (De Magische Truc)

De auteurs hebben twee slimme trucjes bedacht om dit te laten werken:

De "Gaten-vuller": Als de robot een stukje van de foto ziet dat deels kapot is, vult hij de gaten niet met een saaie kleur, maar met een speciale "geleerde" placeholder. Het is alsof je in een zin een woord mist, maar in plaats van een puntje te zetten, je een speciaal symbooltje zet dat de AI leert: "Dit is een gat, ignoreer dit bij het begrijpen van de zin."
De "Gaten-detecteur": De robot houdt tijdens het hele proces een lijstje bij van wat er nog wel en niet goed is. Als twee stukjes data samenkomen (bijvoorbeeld in een zogenoemde "skip connection"), kijkt hij eerst: "Zitten er gaten in?" Als dat zo is, past hij zijn berekening aan zodat die gaten geen kwaad kunnen doen.

4. Waarvoor is dit goed? (De Drie Toepassingen)

De auteurs hebben getest of hun nieuwe robot werkt in drie verschillende situaties:

Diepte meten (Depth Completion): Stel je voor dat je een 3D-scan maakt van een straat, maar de laser-sensor werkt niet overal. Er zijn gaten in de scan. De oude robot maakt een rare, holle 3D-wereld. De nieuwe robot (PVM) vult die gaten perfect op en ziet de auto's en gebouwen scherp, zelfs zonder extra camera's.
- Resultaat: 23% beter dan de oude versie!
Foto's repareren (Image Inpainting): Stel je voor dat je een oude foto hebt met krassen of vlekken. De oude AI maakt de vlekken vaak wazig of tekent rare lijnen erin. De nieuwe AI vult de gaten in met haartjes, neuzen en details die er echt uitzien.
- Resultaat: Veel realistischere foto's.
Foto's herkennen (Classification): Stel je voor dat je een foto van een hond laat zien, maar er staat een persoon voor de hond die de helft van het beeld bedekt. De oude AI raakt in de war en denkt misschien dat het een auto is. De nieuwe AI kijkt alleen naar de zichtbare delen van de hond en zegt: "Ah, dit is een hond!"
- Resultaat: De AI is veel stabieler, zelfs als het beeld beschadigd is.

Conclusie

Kortom: deze paper introduceert een nieuwe manier om slimme computers (Mamba) te leren omgaan met onvolledige informatie. In plaats van de gaten te negeren of ze verkeerd te interpreteren, leert de computer om bewust te negeren wat er niet is.

Het is alsof je een team van detectives hebt die een moordzaak oplossen. De oude detectives proberen elke aanwijzing te gebruiken, zelfs de valse die in de weg liggen. De nieuwe detectives (PVM) weten precies welke aanwijzingen echt zijn en welke "ruis" zijn, waardoor ze de zaak veel sneller en nauwkeuriger oplossen. Dit maakt AI veel robuuster voor de echte wereld, waar dingen vaak niet perfect zijn.

Each language version is independently generated for its own context, not a direct translation.

Titel: Mask-aware inference met State-Space Models (PVM)

Auteurs: Ignasi Mas, Ramon Morros, Javier Ruiz-Hidalgo, en Ivan Huerta.

1. Het Probleem

Veel real-world computer vision taken, zoals dieptecompletie, beeldinpainting en classificatie, moeten omgaan met invoer waarbij willekeurig gevormde gebieden ontbreken of ongeldig zijn (bijvoorbeeld door sensorfouten, LiDAR-sparse data of gecamoufleerde regio's).

Huidige beperkingen: Standaard architecturen, zoals Convolutional Neural Networks (CNNs) en de nieuwere State Space Models (SSMs) zoals Mamba (en zijn visuele varianten Vision Mamba/VMamba), zijn ontworpen voor volledig geldige invoer. Ze behandelen ongeldige pixels (vaak opgevuld met nullen) als geldige data.
Gevolg: Dit "vervuilt" de feature-extractie en verandert de verborgen toestanden van het model, wat leidt tot fouten in de output.
Bestaande oplossingen: Voor CNNs bestaat er Partial Convolutions (PConvs), een methode die outputs baseert op een mask-aware her-normalisatie, zodat alleen geldige pixels invloed hebben. Echter, er ontbreekt een equivalente, ingebouwde mechanisme voor SSMs (zoals Mamba) om willekeurig gevormde ongeldige invoer tijdens de inferentie te negeren. Masked Image Modeling (MIM) is een trainingsstrategie, maar geen architecturale oplossing voor inferentie.

2. Methodologie: Partial Vision Mamba (PVM)

De auteurs introduceren Partial Vision Mamba (PVM), een nieuw architecturaal component dat de principes van partiële bewerkingen toepast op de Mamba-ruggengraat.

A. Mask-aware Framework (Regels voor ontwerp)

Het papier definieert een strikt framework om architecturen "mask-aware" te maken. De geldigheidsmasker ( $m$ ) wordt dynamisch bijgewerkt naarmate data door het netwerk stroomt:

Element-wise operaties: De geldigheid is de logische intersectie (AND) van de invoer-masks.
Concatenatie: Ook hier geldt de intersectie van masks.
Receptieve veld operaties (Convoluties, FC-lagen, Pooling):
- Standaard: Een output is ongeldig als één invoer in het receptieve veld ongeldig is.
- Partieel (PConvs/PVM): Een output is geldig als minimaal één invoer in het receptieve veld geldig is.
Sequentiële modellering (SSM): In standaard SSMs corrumpeert één ongeldig token de hele sequentie. PVM vereist dat minstens één geldig token aanwezig is om een geldige output te produceren.

B. De PVM-Block Architectuur

De PVM vervangt standaard Mamba-lagen en lost twee soorten ongeldigheid op die ontstaan bij het splitsen van afbeeldingen in patches:

Intra-patch ongeldigheid: Een patch bevat zowel geldige als ongeldige pixels.
- Oplossing: Partial Patch Projection. In plaats van een standaard lineaire laag, wordt een "Partial Linear layer" gebruikt. Dit voert een mean-padding uit op ongeldige posities voordat de lineaire projectie plaatsvindt. Hierdoor worden tokens van gedeeltelijk geldige patches als geldig beschouwd.
Inter-patch ongeldigheid: De SSM verwerkt ongeldige tokens samen met geldige tokens, wat de hele sequentie verpest.
- Oplossing: Learned Masked Tokens. Ongeldige tokens worden vervangen door een speciaal, geleerd "masked token" (geïnspireerd door BERT). De SSM leert dit token te herkennen en te negeren, zodat het de geldige data niet beïnvloedt.

C. Toepassingen op Drie Taken

De auteurs passen PVM toe op drie verschillende taken:

Dieptecompletie (Depth Completion): Ontwikkeling van PVM-DC. In plaats van ruwe diepte wordt gewerkt met PNCC (Projected Normalized Color Codes). Het model gebruikt een Shallow Feature Extractor (SFE) met PConvs en een Deep Feature Extractor (DFE) met Residual Partial State Space Blocks (RPSSB). Een "Filling layer" (iteratieve PConv) maakt de feature maps volledig geldig voor de uiteindelijke output.
Beeldinpainting (Image Inpainting): Aanpassing van VM-UNet. Twee varianten:
- PVM-UNet-1: Minimale aanpassing (alleen patch embedding en eerste encoder blok).
- PVM-UNet-N: Volledig mask-aware ontwerp met skip-connections tussen schalen, waarbij alle encoder blokken PVSS-blokken zijn.
Classificatie met ongeldige data: Aanpassing van PlainMamba naar PVM-Cls. Standaard Global Pooling wordt vervangen door Partial Average Pooling, zodat de classificatie alleen gebaseerd wordt op geldige tokens.

3. Belangrijkste Bijdragen

PVM Component: Het eerste architecturale blok dat het Vision Mamba-architectuur in staat stelt om invoer met willekeurig gevormde ongeldige data te verwerken zonder dat de ongeldige waarden de output corrumperen.
Formeel Framework: Een set regels en eigenschappen die beschrijven hoe architecturen moeten worden aangepast om mask-aware te zijn voor SSMs.
Generaliseerbaarheid: Bewijs van de effectiviteit van de aanpak op drie fundamenteel verschillende taken (generatief: inpainting; discriminatief: classificatie; en geometrisch: dieptecompletie).

4. Resultaten

De experimenten tonen aan dat mask-aware modellen significant beter presteren dan hun mask-unaware tegenhangers, zelfs zonder extra RGB-geleidende data.

Dieptecompletie (KITTI-3D):
- PVM-DC vs. VM-DC (zonder RGB): PVM-DC bereikte een 23% relatieve verbetering in RMSE (van 1.80m naar 1.38m).
- Dit bewijst dat de verbetering puur komt door de mask-aware architectuur en niet door extra data.
Beeldinpainting (FFHQ):
- Alle Mamba-gebaseerde modellen (VM-UNet, PVM-UNet) presteerden beter dan traditionele PConvs-modellen op perceptuele metrics (FID, LPIPS), wat wijst op het superieure vermogen van Mamba voor globale context.
- PVM-UNet-N (volledig mask-aware) presteerde het beste (FID 37.88 vs 40.02 voor VM-UNet), wat aantoont dat een grondig mask-aware ontwerp essentieel is voor complexe taken.
Classificatie (ImageNet-1k met masks):
- PVM-Cls behaalde een 36% relatieve stijging in Top-5 nauwkeurigheid (van 25.60% naar 34.93%) ten opzichte van PlainMamba, ondanks dat de taak extreem moeilijk was door de grote hoeveelheid ontbrekende data.
Ablatie Studies:
- Het gebruik van een geleerd masked token voor ongeldige data bleek iets beter dan zero-padding of mean-padding, maar zelfs suboptimale strategieën werkten redelijk goed, wat aantoont dat de SSM-capaciteit robuust is.
- PVM bleek robuust tegen verschillende mask-policies (van makkelijk tot extreem), niet alleen voor de specifieke training-masks.

5. Betekenis en Conclusie

Dit werk vult een cruciale lacune in de computer vision-literatuur. Hoewel State Space Models (zoals Mamba) beloven om efficiënter en krachtiger te zijn dan Transformers voor hoge-resolutie taken, konden ze tot nu toe niet omgaan met de realiteit van onvolledige of beschadigde data.

PVM biedt de eerste architecturale oplossing om deze beperking op te heffen. Het stelt onderzoekers en ingenieurs in staat om de lineariteit en efficiëntie van Mamba toe te passen op real-world scenario's met sensorfouten of occlusies, zonder dat de modelprestaties instorten. De resultaten suggereren dat "mask-awareness" geen optionele toevoeging is, maar een noodzakelijke eigenschap voor robuuste visuele systemen in onvolmaakte omgevingen.