Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Este artigo demonstra que os backbones baseados em Modelos de Espaço de Estado (SSM) são uma alternativa robusta e eficiente aos tradicionais Vision Transformers para Modelos Visuais-Linguísticos (VLMs), alcançando desempenho superior ou competitivo em tarefas de VQA e localização com uma escala de modelo significativamente menor.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

Publicado 2026-03-20
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um robô superinteligente capaz de conversar sobre o que vê. Para isso, você precisa de duas partes principais:

  1. Os Olhos (Visão): Um especialista que olha para a foto e descreve o que tem nela.
  2. O Cérebro (Linguagem): Um especialista em conversação que entende a descrição e responde às perguntas.

Até hoje, quase todos os robôs usavam o mesmo tipo de "olho": um modelo baseado em Transformers (como o ViT). É como se todo mundo usasse o mesmo modelo de óculos caro e famoso.

Mas os autores deste paper se perguntaram: "E se existisse um tipo de óculos diferente, mais novo e talvez mais eficiente, que ninguém estava testando direito?" Esse novo tipo de óculos é chamado de SSM (State Space Models), e o modelo específico que eles testaram é o VMamba.

Aqui está o resumo da história, explicado de forma simples:

1. A Grande Comparação: Trocando os Óculos

Os pesquisadores fizeram um experimento controlado. Eles pegaram o mesmo "cérebro" (o robô conversador) e trocaram apenas os "olhos" (o modelo de visão).

  • O Cenário: Eles usaram óculos treinados da mesma forma (na mesma base de dados de imagens) para garantir que a comparação fosse justa.
  • O Resultado Surpreendente: O novo óculo VMamba (SSM) não apenas funcionou tão bem quanto os óculos famosos (Transformers), mas em muitos casos, funcionou melhor, especialmente em tarefas que exigem precisão espacial (como apontar para onde está um objeto na foto).

2. O Problema do "Colapso" (Quando os Óculos Quebram)

Aqui entra uma parte interessante. Quando eles tentaram treinar esses óculos para tarefas mais complexas (como detectar objetos em caixas ou segmentar partes da imagem), algo estranho aconteceu com alguns modelos:

  • O Colapso: Alguns modelos, mesmo sendo muito grandes e poderosos, começaram a "alucinar" e perder a noção de onde as coisas estavam. Era como se, ao tentar fazer uma tarefa difícil, o robô perdesse a noção de espaço e apontasse para o lugar errado.
  • A Causa: Eles descobriram que o problema não era necessariamente os "olhos" em si, mas sim a ponte entre os olhos e o cérebro.
    • Analogia: Imagine que você tem um fotógrafo incrível (o modelo de visão) que tira fotos perfeitas, mas o mensageiro que leva a foto para o chefe (o conector) é muito lento ou tem uma mala pequena demais. O fotógrafo vê tudo, mas o chefe recebe uma mensagem confusa.

3. As Soluções Mágicas (Estabilização)

Os pesquisadores descobriram como consertar essa "ponte" e evitar o colapso:

  • Ampliar a Ponte (Conector): Eles aumentaram a capacidade do mensageiro (o conector) para que ele pudesse levar mais detalhes da foto para o cérebro. Isso ajudou muito.
  • Mudar o Formato da Foto (Geometria): Eles perceberam que, para alguns modelos, usar fotos quadradas (como 512x512) funcionava muito melhor do que fotos retangulares esticadas (como 1333x800). Era como se o cérebro do robô preferisse ver o mundo em um formato específico para entender a localização dos objetos.

4. O Que Aprendemos? (As Lições)

  • Tamanho não é tudo: Ter um modelo de visão gigante e com alta precisão em testes de classificação de imagens (saber se é um gato ou um cachorro) não garante que ele será bom em conversar sobre a imagem. Às vezes, modelos menores e mais especializados são melhores.
  • O VMamba é um forte concorrente: O modelo SSM (VMamba) provou ser uma alternativa excelente aos modelos tradicionais. Ele é eficiente, consome menos recursos e, com os ajustes certos, é muito preciso em localizar objetos.
  • O segredo está no equilíbrio: Para um robô de visão e linguagem funcionar bem, você precisa de três coisas trabalhando juntas:
    1. Um bom modelo de visão (os olhos).
    2. Um objetivo de treino adequado (treinar para detectar objetos, não apenas classificá-los).
    3. Uma ponte estável entre os olhos e o cérebro (o conector e o formato da imagem).

Em Resumo

Este paper diz: "Pare de usar apenas os óculos tradicionais. Existem óculos novos (SSM/VMamba) que são mais eficientes e, se você ajustar a forma como eles se conectam ao cérebro do robô, eles podem ser ainda melhores do que os gigantes atuais, especialmente para tarefas que exigem precisão de onde as coisas estão."

É como descobrir que, para dirigir um carro de corrida, você não precisa necessariamente do motor mais caro do mercado; às vezes, um motor mais inteligente e bem ajustado à pista (a interface) faz toda a diferença.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →