Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

Immagina di costruire un cervello artificiale super-intelligente (chiamato Vision-Language Model o VLM) che deve guardare una foto e raccontarti cosa succede, o rispondere a domande su di essa.

Per far funzionare questo cervello, hai bisogno di due parti principali:

Gli Occhi (Vision Encoder): Un sistema che guarda l'immagine e la trasforma in una serie di "fatti" o "token" (immaginiamoli come tessere di un puzzle).
La Mente (LLM): Un grande modello linguistico (come un Chatbot avanzato) che legge queste tessere e scrive la risposta.

Fino a poco tempo fa, tutti usavano lo stesso tipo di "occhi": i Transformers (come i ViT). Sono ottimi, ma sono un po' come un fotografo che scatta una foto e poi la taglia in quadratini perfetti, perdendo un po' della fluidità dei contorni.

Questo paper si chiede: "Possiamo usare un tipo di occhio diverso, chiamato SSM (State Space Model), che è più efficiente e forse più bravo a capire dove si trovano le cose?"

Ecco i punti chiave, spiegati con metafore:

1. Il Confronto: Il Fotografo Classico vs. Il Pittore Fluido

Gli autori hanno messo alla prova due tipi di "occhi" in un ambiente controllato (come una gara di corsa con lo stesso asfalto e le stesse scarpe):

I Transformers (ViT): Sono come un fotografo che scatta foto a scatti. Prende l'immagine e la divide in tanti piccoli quadrati. Funziona bene, ma a volte fatica a capire i dettagli fini o i bordi precisi.
Gli SSM (come VMamba): Sono come un pittore che dipinge con pennellate fluide. Invece di tagliare l'immagine in quadrati, "scansiona" l'immagine in tutte le direzioni (su, giù, destra, sinistra) come se stesse seguendo un sentiero.

Il Risultato Sorprendente:
Gli "occhi" SSM (VMamba) hanno vinto! Hanno capito meglio dove si trovano le cose nell'immagine (localizzazione).

Metafora: Se mostri una foto di un cane che corre dietro a una palla, il Transformer potrebbe dire "C'è un cane e c'è una palla". L'SSM dice: "Il cane è lì, sulla sinistra, e la palla è lì, sulla destra, e stanno correndo insieme". È molto più preciso nel "puntamento".

2. Il Paradosso: Più Grande non significa Sempre Meglio

C'era una credenza comune: "Se addestro un occhio su un milione di foto (ImageNet) e diventa bravissimo a riconoscere i gatti, sarà anche bravissimo a descrivere le foto al tuo assistente vocale".
Falso.
Gli autori hanno scoperto che un occhio super-bravo a fare classificazione (dire "è un gatto") può essere un disastro nel capire la posizione (dire "il gatto è sul divano").

Metafora: È come avere un professore di storia che sa a memoria tutte le date delle guerre (ottimo per i quiz), ma che se lo metti in mezzo a una folla non riesce a dire "dov'è il tuo amico". A volte, un occhio più piccolo ma specializzato a "vedere lo spazio" funziona meglio di un gigante che sa solo "nominare le cose".

3. Il Problema del "Collo di Bottiglia" (La Caduta)

C'è stato un momento in cui alcuni "occhi" addestrati specificamente per la ricerca di oggetti (detection) hanno iniziato a comportarsi in modo strano: quando collegati alla "mente", perdevano completamente la capacità di dire dove sono le cose.

Metafora: Immagina di avere un occhio che vede benissimo i dettagli (come un microscopio), ma quando provi a passare queste informazioni alla bocca (il modello linguistico), il cavo di collegamento è troppo sottile o la bocca non sa come interpretare quelle informazioni. L'occhio urla "È qui!", ma la bocca risponde "Non so dov'è".

4. La Soluzione: Riparare il Cavo

Gli autori hanno scoperto come sistemare questo problema senza cambiare gli occhi, ma migliorando il "cavo" che li collega alla mente:

Rendere il cavo più grosso: Aumentare la capacità del connettore (il ponte tra occhi e mente) per far passare più informazioni spaziali.
Cambiare la forma dell'immagine: Usare immagini quadrate invece di rettangolari allungati aiuta la mente a capire meglio la posizione.

Risultato: Con queste piccole riparazioni, anche gli occhi che prima "crollavano" hanno ricominciato a funzionare perfettamente, diventando addirittura i migliori in assoluto.

In Sintesi: Perché è Importante?

Questo studio ci dice tre cose fondamentali:

Non serve per forza il Transformer: Esiste un'alternativa (SSM/VMamba) che è più piccola, più veloce e spesso più precisa nel capire la posizione degli oggetti.
La qualità dell'addestramento conta più della grandezza: Addestrare un modello a "trovare oggetti" (segmentazione/rilevamento) è meglio che addestrarlo solo a "riconoscere cose" (classificazione) per i compiti di descrizione.
L'architettura è importante, ma il collegamento lo è ancora di più: Non basta avere un buon occhio; devi assicurarti che le informazioni arrivino correttamente al cervello.

Conclusione:
Se vuoi costruire un robot che non solo "vede" il mondo, ma sa esattamente "dove" sono le cose e come interagiscono, non devi per forza usare i soliti giganti costosi. Potresti usare un'architettura più snella e intelligente (SSM), assicurandoti solo di collegarla bene al resto del sistema. È un passo avanti verso un'intelligenza artificiale più efficiente e "cosciente" dello spazio.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Large Vision-Language Models (VLM) attuali seguono tipicamente un'architettura modulare: un encoder visivo pre-addestrato (spesso basato su Transformer, come ViT) estrae token visivi, che vengono mappati nello spazio di embedding di un Large Language Model (LLM) tramite un connettore leggero.
Tuttavia, esistono due limiti principali:

Dominio degli Encoder: La maggior parte dei sistemi si affida quasi esclusivamente a famiglie di Transformer (ViT, MaxViT), trascurando architetture alternative come i Modelli a Spazio di Stato (SSM), che hanno mostrato prestazioni eccellenti nelle previsioni dense (segmentazione, rilevamento).
Mancanza di Isolamento: Le comparazioni esistenti spesso cambiano molteplici variabili contemporaneamente (obiettivo di pre-addestramento, risoluzione, pipeline di training), rendendo difficile isolare l'impatto reale dell'architettura del backbone visivo.
Efficienza e Spazialità: Gli SSM promettono di codificare informazioni spaziali più ricche senza aumentare il numero di token visivi, un fattore cruciale per il grounding (localizzazione) e il ragionamento spaziale, ma la loro efficacia nei VLM generativi non è stata valutata in modo controllato.

2. Metodologia

Gli autori conducono una valutazione rigorosa e controllata seguendo un approccio "backbone-swap" (sostituzione del backbone) in un setting LLaVA-style:

Setup Controllato: L'encoder visivo viene congelato (frozen) durante il fine-tuning. Vengono aggiornati solo il connettore e l'LLM. Questo permette di confrontare architetture diverse senza confondere gli effetti architetturali con la dinamica di ottimizzazione congiunta.
Architetture Confrontate:
- SSM: VMamba (il backbone principale, basato su SS2D - 2D Selective Scan).
- Ibridi: MambaVision (combinazione Mamba-Transformer).
- Transformer: ViT, MaxViT (ibrido convoluzione-attention).
Fasi di Sperimentazione:
1. Matched IN1K/224: Confronto diretto con backbone pre-addestrati su ImageNet-1K a 224x224, estraendo lo stesso numero di token visivi ( $L=196$ ) per garantire parità di condizioni.
2. Adattamento a Obiettivi Densi: Valutazione di checkpoint adattati per il rilevamento (Detection) e la segmentazione (Segmentation) per vedere se obiettivi spaziali migliorano le prestazioni.
3. Analisi dei Fallimenti: Indagine su casi di "crollo" (collapse) delle prestazioni di localizzazione e diagnosi delle cause (bottleneck di trasmissione o utilizzo).
4. Strategie di Stabilizzazione: Test di strategie per correggere i fallimenti, come l'aumento della capacità del connettore (MLP più profondo) e la modifica della geometria di input (passaggio a input quadrati).

3. Contributi Chiave

Valutazione Controllata degli SSM: Prima valutazione sistematica che sostituisce gli encoder Transformer con SSM (VMamba) in un VLM, mantenendo costanti tutti gli altri iperparametri.
Superiorità degli SSM nel Grounding: Dimostrazione empirica che VMamba, pur essendo più piccolo, supera i Transformer (ViT, MaxViT) nelle task di localizzazione e grounding, mantenendo prestazioni competitive nelle VQA (Visual Question Answering) aperte.
Diagnosi del "Localization Collapse": Identificazione di un fenomeno critico dove certi checkpoint pre-addestrati per il rilevamento (specialmente ad alta risoluzione e aspect ratio non quadrati) falliscono drasticamente nel grounding. Gli autori diagnosticano questo come un fallimento dell'interfaccia visivo-linguistica (trasmissione o utilizzo delle informazioni spaziali) piuttosto che una carenza dell'encoder visivo.
Strategie di Stabilizzazione: Proposta di soluzioni pratiche (connettori più capaci e input quadrati) che recuperano le prestazioni perse, rendendo gli SSM robusti anche in configurazioni complesse.
Sfatare Miti sulle Metriche: Dimostrazione che l'accuratezza su ImageNet e il semplice scaling del modello non sono predittori affidabili delle prestazioni nei VLM; anzi, modelli più grandi con alta accuratezza su ImageNet possono performare peggio nel grounding a causa dell'overfitting sull'obiettivo di classificazione.

4. Risultati Principali

Prestazioni Generali: Sotto condizioni strettamente controllate (IN1K/224), VMamba ottiene le migliori prestazioni complessive. In particolare, le varianti VMamba-T e VMamba-S dominano costantemente nei benchmark di localizzazione (RefCOCO, RefCOCO+, RefCOCOg, OCID-Ref), superando anche backbone Transformer molto più grandi.
Effetto degli Obiettivi Densi: L'adattamento a task dense (rilevamento/segmentazione) migliora le prestazioni sia per SSM che per Transformer. Tuttavia, l'adattamento al rilevamento può causare instabilità (crollo della localizzazione) se non gestito correttamente.
Scalabilità e Accuratezza: Non esiste una correlazione diretta tra l'accuratezza su ImageNet e le prestazioni VLM. Modelli come MaxViT-L o VMamba-B (più grandi) talvolta performano peggio delle loro controparti più piccole (T/S) nelle task di grounding, suggerendo che l'induzione spaziale intrinseca dell'architettura è più importante della semplice scala.
Stabilizzazione:
- Aumentare la capacità del connettore (da 2 a 3 layer MLP) recupera parzialmente le prestazioni nei casi di crollo.
- Cambiare la geometria di input da rettangolare (tipica del rilevamento, es. 1333x800) a quadrata (512x512) elimina il crollo e migliora significativamente sia la localizzazione che la VQA per i modelli adattati al rilevamento.
Efficienza: VMamba offre un miglior compromesso prestazioni-efficienza rispetto a ViT di dimensioni simili e richiede meno memoria GPU rispetto a backbone molto grandi come ViTDet, permettendo risoluzioni più elevate prima di andare in out-of-memory.

5. Significato e Implicazioni

Questo lavoro sfida il dogma secondo cui i Transformer sono l'unica scelta valida per gli encoder visivi nei VLM.

Alternative Efficienti: Gli SSM (come VMamba) si rivelano una scelta superiore per le applicazioni che richiedono un forte ragionamento spaziale e grounding, offrendo prestazioni migliori con modelli più piccoli.
Importanza dell'Interfaccia: Il successo di un VLM non dipende solo dall'encoder visivo, ma dall'interazione tra architettura, obiettivo di pre-addestramento e interfaccia (connettore + geometria). Una cattiva interfaccia può annullare i vantaggi di un encoder potente.
Guida Pratica: Fornisce linee guida concrete per la progettazione di VLM:
1. Preferire backbone con forte induzione spaziale (SSM o ibridi) se il grounding è critico.
2. Utilizzare input quadrati o connettori più capaci quando si utilizzano checkpoint pre-addestrati per task dense ad alta risoluzione per evitare il crollo delle prestazioni.
3. Non affidarsi ciecamente all'accuratezza su ImageNet o alla dimensione del modello per selezionare un backbone per VLM.

In sintesi, il paper dimostra che gli SSM sono una valida, e spesso superiore, alternativa ai Transformer per gli encoder visivi nei VLM, a patto di gestire correttamente l'interfaccia visivo-linguistica.