Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que un Modelo de Lenguaje y Visión (VLM) es como un detective muy inteligente que tiene dos ayudantes principales:

El Ojo (Visión): Es quien mira la foto y describe lo que ve.
El Cerebro (Lenguaje): Es quien toma esa descripción y responde a las preguntas o cuenta una historia.

Durante mucho tiempo, todos los detectives usaban el mismo tipo de "Ojo": uno basado en Transformers (llamados ViT). Funcionaba bien, pero los investigadores se preguntaron: "¿Es este el único tipo de ojo que podemos usar? ¿Hay algo mejor?".

En este artículo, los autores prueban un nuevo tipo de ojo llamado VMamba (basado en un modelo de "Espacio de Estados" o SSM) y descubren cosas fascinantes. Aquí te lo explico con analogías sencillas:

1. El Problema del "Ojo" Tradicional

Imagina que el ojo tradicional (ViT) es como un turista que mira un paisaje.

Mira todo el panorama de golpe (atención global).
Es bueno para decirte: "¡Hay un perro!".
Pero a veces, si le preguntas "¿Dónde está exactamente la oreja del perro?", el turista se confunde un poco porque su mirada es muy amplia y no muy precisa en los detalles pequeños.

2. La Nueva Propuesta: El "Ojo" VMamba

Los autores probaron un nuevo ojo llamado VMamba. Imagina que este ojo es como un explorador con una linterna.

En lugar de mirar todo de golpe, escanea la imagen línea por línea, de arriba a abajo y de izquierda a derecha (y viceversa).
El hallazgo: Este explorador es mucho mejor para entender la ubicación exacta de las cosas. Si le preguntas "¿Dónde está la oreja?", te señala el lugar exacto con mucha más precisión que el turista.
Además, hace todo esto siendo más pequeño y eficiente (gasta menos batería y es más rápido) que los ojos gigantes tradicionales.

3. La Trampa del "Entrenamiento" (El Objetivo de la Prueba)

Aquí viene la parte más interesante. Los autores descubrieron que no basta con tener un buen ojo; también importa qué le enseñaron a ver.

Entrenamiento para Clasificar (El "Museo"): Si entrenas al ojo solo para decirte "¿Qué animal es?" (como en un museo de arte), se vuelve muy bueno nombrando cosas, pero olvida dónde están. Es como un profesor de historia que sabe todos los nombres de los reyes, pero no sabe en qué mapa están sus países.
Entrenamiento para Detectar (El "Bombero"): Si entrenas al ojo para encontrar cosas específicas (como en un entrenamiento de bomberos que busca fugas de gas), se vuelve genial para localizar.
La sorpresa: El ojo VMamba ya era bueno por naturaleza, pero cuando le dieron el entrenamiento de "bombero" (detectar objetos), se volvió imbatible. Incluso superó a ojos mucho más grandes y costosos.

4. El Problema de la "Puerta de Entrada" (La Interfaz)

A veces, el ojo ve perfectamente, pero el cerebro no entiende lo que el ojo le dice. Imagina que el ojo es un traductor que habla un idioma muy complejo, y el cerebro es un jefe que habla otro.

El Colapso: En algunos casos, cuando el ojo ve imágenes muy grandes y complejas, el "traductor" (conector) se satura y el jefe (cerebro) empieza a alucinar o a no entender nada. A esto lo llaman "colapso de localización".
La Solución: Los autores descubrieron que para arreglar esto no hace falta cambiar el ojo, sino mejorar el traductor (hacerlo más potente) o cambiar el formato de la foto (hacerla cuadrada en lugar de rectangular). Con estos pequeños ajustes, el sistema vuelve a funcionar perfectamente.

5. Conclusión: ¿Qué aprendimos?

No siempre "más grande" es mejor: Un ojo gigante no garantiza que el detective sea más inteligente. A veces, un ojo más pequeño y especializado (como VMamba) hace un trabajo mucho mejor.
La ubicación importa: Para que un modelo de IA sea realmente útil (por ejemplo, para un robot que necesita agarrar un objeto), necesita saber dónde están las cosas, no solo qué son. VMamba es excelente en esto.
El equilibrio es clave: Necesitas un buen ojo, un buen entrenamiento (que enseñe a ver detalles) y un buen traductor para conectar ambos.

En resumen:
Este papel nos dice que ya no necesitamos aferrarnos a la única tecnología de "ojo" que conocíamos. Hay una nueva opción (VMamba) que es más eficiente, más precisa para encontrar cosas en las fotos y, con los ajustes correctos, puede hacer que nuestros detectores de IA sean mucho más listos y útiles en el mundo real. ¡Es como cambiar de unas gafas normales a unas gafas de visión nocturna de alta tecnología!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: ¿Necesitan los VLMs Vision Transformers? Evaluación de Modelos de Espacio de Estado como Codificadores Visuales

1. El Problema

Los Modelos de Lenguaje y Visión (VLM) actuales suelen seguir un diseño modular donde un codificador visual (generalmente basado en Transformers, como ViT) extrae características de una imagen, las cuales se mapean a un Modelo de Lenguaje Grande (LLM) mediante un conector ligero.

Limitación actual: La mayoría de los sistemas dependen casi exclusivamente de arquitecturas basadas en Transformers (ViT) como columna vertebral visual.
Desafío: Las comparaciones existentes a menudo cambian múltiples variables simultáneamente (objetivo de preentrenamiento, resolución, diseño del conector), lo que dificulta aislar el impacto real de la arquitectura visual.
Pregunta de investigación: ¿Pueden los Modelos de Espacio de Estado (SSM), como VMamba, ofrecer una alternativa robusta y eficiente a los Transformers para la visión en VLMs, especialmente en tareas que requieren información espacial precisa (localización y grounding)?

2. Metodología

Los autores realizaron una evaluación controlada y sistemática bajo un diseño tipo LLaVA, manteniendo fijos el LLM (Vicuna-7B), el conector y el pipeline de entrenamiento, para aislar únicamente el efecto del codificador visual.

Configuración Controlada (Backbone Swap):
- Se compararon arquitecturas de diferentes familias: ViT (Transformer puro), MaxViT (Híbrido Conv-Atención), MambaVision (Híbrido Mamba-Transformer) y VMamba (SSM puro).
- Condición estricta: Todos los modelos se inicializaron con pesos preentrenados en ImageNet-1K (IN1K) a resolución 224x224. Se extrajeron características de la misma etapa para igualar el número de tokens visuales ( $L=196$ ).
Adaptación a Tareas Densas:
- Se evaluaron checkpoints adaptados con objetivos de detección (COCO) y segmentación (ADE20K) para ver cómo el preentrenamiento en tareas densas afecta el rendimiento en VLMs.
Análisis de Fallos y Estabilización:
- Se identificaron modos de fallo (colapso en localización) y se probaron estrategias de estabilización: aumentar la capacidad del conector (MLP más profundo) y modificar la geometría de entrada (cuadrada vs. rectangular).
Benchmarks:
- VQA (Preguntas y Respuestas Visuales): VQA-v2, GQA, VizWiz, TextVQA, POPE, TallyQA.
- Localización/Grounding: RefCOCO, RefCOCO+, RefCOCOg, OCID-Ref.

3. Contribuciones Clave

Evaluación Controlada de SSMs: Primera comparación exhaustiva de backbones SSM (VMamba) frente a Transformers en VLMs congelados, bajo condiciones de entrenamiento idénticas.
Evidencia Empírica de Superioridad en Grounding: Demostración de que los codificadores basados en SSM (VMamba) superan consistentemente a los basados en Transformers en tareas de localización y grounding, incluso con modelos de tamaño similar.
Diagnóstico de Fallos: Identificación de que la precisión en ImageNet y el escalado ingenuo del modelo no predicen el rendimiento en VLMs. Se descubrió un fenómeno de "colapso de localización" en ciertas configuraciones de detección de alta resolución.
Estrategias de Estabilización: Propuesta de soluciones simples y agnósticas a la arquitectura (mejorar el conector y usar geometría de entrada cuadrada) para recuperar el rendimiento en configuraciones inestables.

4. Resultados Principales

Rendimiento en Configuración IN1K/224 (Coincidencia Estricta):
- VMamba logró el mejor rendimiento general. Las variantes VMamba-T y VMamba-S superaron consistentemente a ViT, MaxViT y MambaVision en todos los benchmarks de localización.
- En VQA, VMamba fue competitivo o superior, demostrando que no sacrifica la capacidad de razonamiento general por la precisión espacial.
- Observación crítica: Para ViT y MaxViT, una mayor precisión en ImageNet a menudo se correlacionó con un peor rendimiento en VLMs (sobreajuste a la clasificación global). VMamba mostró mayor robustez ante este fenómeno gracias a su sesgo inductivo espacial.
Impacto de Objetivos Densos (Detección/Segmentación):
- Adaptar backbones a tareas densas generalmente mejora tanto VQA como localización.
- Sin embargo, ciertas adaptaciones de detección (especialmente en modelos grandes como ViTDet-L/H o VMamba-T/B) sufrieron un colapso de localización (caída abrupta en grounding).
- Solución: El uso de una geometría de entrada cuadrada (512x512) y un conector más fuerte (MLP de 3 capas) eliminó el colapso y mejoró el rendimiento, superando incluso a los modelos preentrenados solo en ImageNet.
Análisis de Eficiencia:
- VMamba ofrece una mejor relación rendimiento-eficiencia que ViT de tamaño similar.
- Los modelos más grandes (como ViTDet) alcanzan límites de memoria mucho antes, mientras que VMamba mantiene un escalado más eficiente en latencia de visión.
Correlación Métrica:
- Se encontró una fuerte correlación entre los benchmarks de localización y el rendimiento en VQA (especialmente en GQA), sugiriendo que la capacidad de "atender" a regiones específicas es fundamental para el razonamiento visual.

5. Significado e Implicaciones

Cambio de Paradigma: El trabajo desafía el consenso de que los Transformers son la única opción viable para la visión en VLMs. Los SSMs (como VMamba) se presentan como una alternativa superior, especialmente cuando se requiere preservar información espacial fina sin aumentar el número de tokens.
Importancia del Sesgo Inductivo: La arquitectura importa. Los SSMs, al realizar escaneos bidireccionales sobre la cuadrícula 2D, preservan mejor la estructura espacial que los Transformers, que dependen de codificaciones posicionales que pueden diluirse en capas profundas bajo preentrenamiento de clasificación.
Guía Práctica para VLMs:
- La precisión de ImageNet no es un proxy confiable para el rendimiento en VLMs.
- La estabilidad del interfaz visión-lenguaje (geometría de entrada y capacidad del conector) es tan crítica como la arquitectura del backbone.
- Para aplicaciones que requieren grounding (robótica, navegación, análisis médico), los backbones SSM son una elección más eficiente y robusta.

En conclusión, el paper demuestra que VMamba es una columna vertebral visual fuerte y eficiente para VLMs, superando a los Transformers estándar en tareas de localización y ofreciendo un rendimiento competitivo en VQA, todo ello con un menor costo computacional y una mayor robustez ante el sobreajuste a la clasificación global.