Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Este trabajo demuestra que los modelos de espacio de estado (SSM) pueden servir como una alternativa robusta y eficiente a los transformadores visuales en los modelos de lenguaje y visión grandes, logrando un rendimiento superior o competitivo en tareas de comprensión visual y localización con una escala de modelo significativamente menor.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

Publicado 2026-03-20
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que un Modelo de Lenguaje y Visión (VLM) es como un detective muy inteligente que tiene dos ayudantes principales:

  1. El Ojo (Visión): Es quien mira la foto y describe lo que ve.
  2. El Cerebro (Lenguaje): Es quien toma esa descripción y responde a las preguntas o cuenta una historia.

Durante mucho tiempo, todos los detectives usaban el mismo tipo de "Ojo": uno basado en Transformers (llamados ViT). Funcionaba bien, pero los investigadores se preguntaron: "¿Es este el único tipo de ojo que podemos usar? ¿Hay algo mejor?".

En este artículo, los autores prueban un nuevo tipo de ojo llamado VMamba (basado en un modelo de "Espacio de Estados" o SSM) y descubren cosas fascinantes. Aquí te lo explico con analogías sencillas:

1. El Problema del "Ojo" Tradicional

Imagina que el ojo tradicional (ViT) es como un turista que mira un paisaje.

  • Mira todo el panorama de golpe (atención global).
  • Es bueno para decirte: "¡Hay un perro!".
  • Pero a veces, si le preguntas "¿Dónde está exactamente la oreja del perro?", el turista se confunde un poco porque su mirada es muy amplia y no muy precisa en los detalles pequeños.

2. La Nueva Propuesta: El "Ojo" VMamba

Los autores probaron un nuevo ojo llamado VMamba. Imagina que este ojo es como un explorador con una linterna.

  • En lugar de mirar todo de golpe, escanea la imagen línea por línea, de arriba a abajo y de izquierda a derecha (y viceversa).
  • El hallazgo: Este explorador es mucho mejor para entender la ubicación exacta de las cosas. Si le preguntas "¿Dónde está la oreja?", te señala el lugar exacto con mucha más precisión que el turista.
  • Además, hace todo esto siendo más pequeño y eficiente (gasta menos batería y es más rápido) que los ojos gigantes tradicionales.

3. La Trampa del "Entrenamiento" (El Objetivo de la Prueba)

Aquí viene la parte más interesante. Los autores descubrieron que no basta con tener un buen ojo; también importa qué le enseñaron a ver.

  • Entrenamiento para Clasificar (El "Museo"): Si entrenas al ojo solo para decirte "¿Qué animal es?" (como en un museo de arte), se vuelve muy bueno nombrando cosas, pero olvida dónde están. Es como un profesor de historia que sabe todos los nombres de los reyes, pero no sabe en qué mapa están sus países.
  • Entrenamiento para Detectar (El "Bombero"): Si entrenas al ojo para encontrar cosas específicas (como en un entrenamiento de bomberos que busca fugas de gas), se vuelve genial para localizar.
  • La sorpresa: El ojo VMamba ya era bueno por naturaleza, pero cuando le dieron el entrenamiento de "bombero" (detectar objetos), se volvió imbatible. Incluso superó a ojos mucho más grandes y costosos.

4. El Problema de la "Puerta de Entrada" (La Interfaz)

A veces, el ojo ve perfectamente, pero el cerebro no entiende lo que el ojo le dice. Imagina que el ojo es un traductor que habla un idioma muy complejo, y el cerebro es un jefe que habla otro.

  • El Colapso: En algunos casos, cuando el ojo ve imágenes muy grandes y complejas, el "traductor" (conector) se satura y el jefe (cerebro) empieza a alucinar o a no entender nada. A esto lo llaman "colapso de localización".
  • La Solución: Los autores descubrieron que para arreglar esto no hace falta cambiar el ojo, sino mejorar el traductor (hacerlo más potente) o cambiar el formato de la foto (hacerla cuadrada en lugar de rectangular). Con estos pequeños ajustes, el sistema vuelve a funcionar perfectamente.

5. Conclusión: ¿Qué aprendimos?

  • No siempre "más grande" es mejor: Un ojo gigante no garantiza que el detective sea más inteligente. A veces, un ojo más pequeño y especializado (como VMamba) hace un trabajo mucho mejor.
  • La ubicación importa: Para que un modelo de IA sea realmente útil (por ejemplo, para un robot que necesita agarrar un objeto), necesita saber dónde están las cosas, no solo qué son. VMamba es excelente en esto.
  • El equilibrio es clave: Necesitas un buen ojo, un buen entrenamiento (que enseñe a ver detalles) y un buen traductor para conectar ambos.

En resumen:
Este papel nos dice que ya no necesitamos aferrarnos a la única tecnología de "ojo" que conocíamos. Hay una nueva opción (VMamba) que es más eficiente, más precisa para encontrar cosas en las fotos y, con los ajustes correctos, puede hacer que nuestros detectores de IA sean mucho más listos y útiles en el mundo real. ¡Es como cambiar de unas gafas normales a unas gafas de visión nocturna de alta tecnología!

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →