Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

Titel: Zien met een nieuwe bril: Waarom "SSM's" de nieuwe helden zijn voor AI die naar plaatjes kijkt

Stel je voor dat je een zeer slimme robot bouwt die niet alleen kan praten, maar ook naar foto's kan kijken en erover kan vertellen. Dit noemen we een Vision-Language Model (VLM). Tot nu toe gebruikten deze robots bijna altijd dezelfde soort "bril" om te kijken: een Vision Transformer (ViT). Dit is een bril die werkt als een superkrachtige, maar soms wat rommelige, zoektocht door een foto.

De auteurs van dit paper vragen zich af: "Moeten we echt die ene bril blijven gebruiken, of is er een betere manier?" Ze testen een nieuw type bril, gebaseerd op State Space Models (SSM), en ontdekken dat deze soms veel beter werkt.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het probleem: De "Bril" en de "Vertaler"

Een VLM werkt als een team van twee:

De Vision Encoder (De Bril): Kijkt naar de foto en haalt de belangrijkste details eruit.
De Connector (De Vertaler): Zorgt dat de informatie van de bril begrijpelijk is voor de taal-robot (de LLM).

Tot nu toe gebruikten bijna alle robots de Transformer-bril. Deze bril is goed, maar hij heeft een nadeel: hij is erg goed in het herkennen van wat er op een foto staat (bijv. "dit is een hond"), maar soms minder goed in het precies weten waar de hond staat (bijv. "de hond zit links van de boom").

2. De nieuwe kandidaat: De SSM-bril

De auteurs testen een nieuwe bril, genaamd VMamba (een type SSM).

Hoe werkt de oude bril (Transformer)? Stel je voor dat je een foto in kleine vierkante stukjes knipt en die allemaal door elkaar gooit. De bril moet dan raden hoe ze passen. Hij is goed in het herkennen van patronen, maar kan de ruimtelijke verhoudingen (links/rechts) soms kwijtraken.
Hoe werkt de nieuwe bril (SSM)? Deze bril kijkt naar de foto als een strakke, gestructureerde scan. Hij loopt over de foto heen alsof hij een lijn trekt, van links naar rechts en van boven naar beneden. Hierdoor onthoudt hij de ruimtelijke structuur veel beter. Hij weet precies waar dingen staan zonder dat hij hoeft te gissen.

3. De Grote Test: Wie wint?

De auteurs hebben een eerlijke wedstrijd georganiseerd. Ze hebben verschillende brillen (oude en nieuwe) in precies hetzelfde robot-team geplaatst en getest op twee dingen:

Vragen beantwoorden: "Wat doet de hond?" (VQA).
Aanwijzen: "Teken een kader om de hond." (Locatie/Gronding).

De verrassende uitkomst:
De nieuwe SSM-bril (VMamba) deed het beter dan de oude bril, zelfs als de oude bril veel groter en krachtiger was!

Bij het aanwijzen van objecten was de SSM-bril een duidelijke winnaar. Hij wist precies waar de objecten zaten.
Bij het beantwoorden van vragen deed hij het net zo goed als de beste oude brillen, maar dan met een veel kleiner en efficiënter model.

4. De valkuilen: Waarom groter niet altijd beter is

Het team ontdekte ook twee belangrijke valkuilen:

De "Grote Bril" valkuil: Soms denken mensen: "Hoe groter de bril, hoe beter." Maar dat klopt niet altijd. Een gigantische Transformer-bril kan zo gespecialiseerd raken in het herkennen van objecten, dat hij vergeet waar ze staan. Het is alsof je een expert bent in het noemen van alle auto's op een foto, maar je vergeet dat je niet weet welke auto links of rechts staat.
De "Instabiele Vertaler": Soms werkt de bril prima, maar faalt de robot bij het aanwijzen. Dit komt vaak door de vertaler (de connector) tussen de bril en de taal-robot. Als je de foto in een vreemd formaat (bijv. een langwerpige strook) naar de robot stuurt, raakt de vertaler in de war.

5. De oplossing: Stabilisatie

Hoe los je dit op? De auteurs geven twee simpele tips:

Maak de vertaler sterker: Gebruik een krachtigere "tussenpersoon" die de ruimtelijke informatie van de bril beter kan doorgeven aan de taal-robot.
Gebruik vierkante foto's: Als je de foto's in een vierkant formaat (512x512) houdt in plaats van langwerpige vormen, werkt de robot veel stabieler. Het is alsof je een verhaal vertelt in een netjes vierkant boekje in plaats van in een lange, kronkelige strook papier; het is makkelijker te volgen.

Conclusie: Waarom is dit belangrijk?

Dit paper zegt eigenlijk: "Stop met blindelings de grootste en oudste brillen te gebruiken."

De nieuwe SSM-brillen (zoals VMamba) zijn een fantastisch alternatief. Ze zijn:

Slimmer in ruimtelijk inzicht: Ze weten beter waar dingen staan.
Efficiënter: Ze zijn vaak kleiner en sneller, maar presteren net zo goed of beter.
Stabiel: Met de juiste instellingen (vierkante foto's en een sterke vertaler) werken ze betrouwbaarder.

Kortom: Voor robots die moeten begrijpen wat ze zien en waar het zich bevindt, is de oude "Transformer-bril" misschien niet meer de enige keuze. De nieuwe "SSM-bril" is een sterke, slimme en efficiënte concurrent die de toekomst van visuele AI kan vormgeven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Vision-Language Modellen (VLM's) gebruiken doorgaans een bevroren visuele backbone (meestal gebaseerd op Vision Transformers, ViT) die wordt gekoppeld aan een Large Language Model (LLM) via een lichte connector. Ondanks de dominantie van Transformer-architecturen, zijn er twee belangrijke beperkingen:

Ruimtelijke informatie: ViT's zijn permutatie-invariant en vertrouwen sterk op positionele encoding voor ruimtelijke structuur. Dit kan leiden tot een verlies aan fijne ruimtelijke details, wat cruciaal is voor taken zoals "grounding" (het lokaliseren van objecten in een afbeelding).
Vergelijkbaarheid: Bestaande vergelijkingen tussen visuele backbones verwarren vaak architecturale verschillen met andere factoren zoals pretraining-doelen, resolutie, tokenisatie-instellingen en connector-ontwerp. Er is een gebrek aan gecontroleerde studies die specifiek kijken naar State Space Models (SSM's) als visuele encoders in VLM's.

De kernvraag van het paper is: Kunnen SSM-gebaseerde visuele backbones (zoals VMamba) een sterk alternatief zijn voor Transformer-gebaseerde encoders in VLM's, en hoe beïnvloeden pretraining-doelen en interface-instellingen de prestaties?

Methodologie

De auteurs voeren een strikt gecontroleerde evaluatie uit binnen een LLaVA-achtige VLM-architectuur.

Experimenteel Ontwerp: Ze houden de LLM (Vicuna-7B), de connector, het trainingsrecept (instruction tuning) en de dataset (665K voorbeelden) constant. Alleen de visuele backbone wordt verwisseld.
Architecturen: Ze vergelijken verschillende families:
- ViT-familie: ViT, MaxViT.
- Hybride SSM/Transformer: MambaVision.
- Pure SSM: VMamba (gebaseerd op 2D-Selective-Scan).
- Dense-task adaptaties: Backbones die zijn voorgeprogrammeerd voor detectie (ViTDet) of segmentatie (DeiT, VMamba).
Controlevariabelen:
- Matched Setting: Alle modellen worden getest op ImageNet-1K (IN1K) pretraining met een input van 224x224 en een vast aantal visuele tokens ( $L=196$ ) om architecturale effecten te isoleren.
- Dense Objectives: Evaluatie van modellen die zijn aangepast voor detectie of segmentatie om de impact van ruimtelijke pretraining te meten.
- Stabilisatie: Analyse van "localization collapse" (plotselinge daling in prestaties) en testen van strategieën zoals het vergroten van de connector-capaciteit en het aanpassen van de input-geometrie (vierkant vs. rechthoekig).

Kernbijdragen

Gecombineerde Evaluatie van SSM's: Het paper biedt de eerste gecontroleerde vergelijking van SSM-visuele encoders (VMamba) tegenover Transformer-encoders in generatieve VLM's.
Empirisch Bewijs voor SSM's: Het toont aan dat VMamba, zelfs onder strikt gelijke omstandigheden, superieure prestaties levert op lokaliserings- en grounding-taken vergeleken met ViT-families, terwijl het concurrerend blijft op open-ended VQA.
Diagnose van Falen: Het identificeert twee kritieke foutmodi:
- Onbetrouwbare voorspellers: Hogere ImageNet-accuraatheid of simpelweg grotere modelgrootte garanderen geen betere VLM-prestaties.
- Localisation Collapse: Sommige detectie-geadaptierte modellen (zowel ViT als SSM) vertonen een abrupte daling in prestaties bij hoge resoluties of specifieke geometrieën.
Stabilisatiestrategieën: Het introduceert praktische oplossingen voor deze instabiliteit, namelijk het vergroten van de connector-capaciteit en het gebruik van vierkante input-geometrieën, die de prestaties van instabiele configuraties herstellen.

Resultaten

Matched IN1K/224 Setting: VMamba (T/S/B varianten) behaalt de beste algehele prestaties. Vooral VMamba-T en VMamba-S scoren consistent hoger op alle grounding-benchmarks (RefCOCO, OCID-Ref) dan ViT en MaxViT, ondanks dat ze kleiner of vergelijkbaar van formaat zijn.
Impact van Dichte Doelen: Het voorgeprogrammeerd zijn voor detectie of segmentatie verbetert over het algemeen zowel VQA als lokaliseringsprestaties voor alle architecturen. Segmentation-adaptatie is echter consistenter dan detectie-adaptatie.
Localisation Collapse: Modellen zoals ViTDet-L/H en bepaalde VMamba-configuraties (bijv. VMamba-T/B met detectie-pretraining) vertonen een "collapse" waarbij de grounding-prestaties drastisch dalen.
- Oorzaak: Dit wordt niet veroorzaakt door slechte visuele features, maar door een interface-fout tussen de visuele encoder en de LLM (transmissie- of gebruiks-bottleneck).
- Oplossing: Het vervangen van de standaard 2-laags MLP-connector door een sterkere 3-laags MLP, en het wijzigen van de input-geometrie van rechthoekig (bijv. 1333x800) naar vierkant (512x512), herstelt de prestaties volledig en leidt soms zelfs tot verbeteringen boven de oorspronkelijke baselines.
Inference Efficiency: VMamba toont een vergelijkbare inference-efficiëntie als ViT bij vergelijkbare schaal, maar biedt een betere performance-efficiency trade-off dan veel grotere backbones zoals ViTDet.

Significantie

Dit paper heeft belangrijke implicaties voor het ontwerp van toekomstige VLM's:

Alternatief voor Transformers: SSM's (zoals VMamba) zijn een krachtig en schaalbaar alternatief voor Vision Transformers, vooral omdat ze door hun architectuur (2D-selective scan) ruimtelijke informatie beter behouden zonder expliciete lokale pretraining.
Design Guidelines: Het paper benadrukt dat de keuze van de visuele backbone slechts één factor is. De pretraining-doelstelling (dichte taken vs. classificatie) en de visueel-taal interface (connector capaciteit en input geometrie) zijn minstens zo belangrijk voor de stabiliteit en prestaties van het systeem.
Praktische Richtlijnen: Het biedt concrete richtlijnen om "localization collapse" te voorkomen: gebruik vierkante input-geometrieën bij hoge resoluties en zorg voor voldoende connector-capaciteit om ruimtelijke informatie naar de LLM te transigeren.

Kortom, het paper pleit voor een gefactoriseerde visie op VLM-ontwikkeling (Backbone + Doel + Interface) en positioneert SSM's als een veelbelovende, ruimte-efficiënte keuze voor de volgende generatie vision-language modellen.