Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um robô superinteligente capaz de conversar sobre o que vê. Para isso, você precisa de duas partes principais:

Os Olhos (Visão): Um especialista que olha para a foto e descreve o que tem nela.
O Cérebro (Linguagem): Um especialista em conversação que entende a descrição e responde às perguntas.

Até hoje, quase todos os robôs usavam o mesmo tipo de "olho": um modelo baseado em Transformers (como o ViT). É como se todo mundo usasse o mesmo modelo de óculos caro e famoso.

Mas os autores deste paper se perguntaram: "E se existisse um tipo de óculos diferente, mais novo e talvez mais eficiente, que ninguém estava testando direito?" Esse novo tipo de óculos é chamado de SSM (State Space Models), e o modelo específico que eles testaram é o VMamba.

Aqui está o resumo da história, explicado de forma simples:

1. A Grande Comparação: Trocando os Óculos

Os pesquisadores fizeram um experimento controlado. Eles pegaram o mesmo "cérebro" (o robô conversador) e trocaram apenas os "olhos" (o modelo de visão).

O Cenário: Eles usaram óculos treinados da mesma forma (na mesma base de dados de imagens) para garantir que a comparação fosse justa.
O Resultado Surpreendente: O novo óculo VMamba (SSM) não apenas funcionou tão bem quanto os óculos famosos (Transformers), mas em muitos casos, funcionou melhor, especialmente em tarefas que exigem precisão espacial (como apontar para onde está um objeto na foto).

2. O Problema do "Colapso" (Quando os Óculos Quebram)

Aqui entra uma parte interessante. Quando eles tentaram treinar esses óculos para tarefas mais complexas (como detectar objetos em caixas ou segmentar partes da imagem), algo estranho aconteceu com alguns modelos:

O Colapso: Alguns modelos, mesmo sendo muito grandes e poderosos, começaram a "alucinar" e perder a noção de onde as coisas estavam. Era como se, ao tentar fazer uma tarefa difícil, o robô perdesse a noção de espaço e apontasse para o lugar errado.
A Causa: Eles descobriram que o problema não era necessariamente os "olhos" em si, mas sim a ponte entre os olhos e o cérebro.
- Analogia: Imagine que você tem um fotógrafo incrível (o modelo de visão) que tira fotos perfeitas, mas o mensageiro que leva a foto para o chefe (o conector) é muito lento ou tem uma mala pequena demais. O fotógrafo vê tudo, mas o chefe recebe uma mensagem confusa.

3. As Soluções Mágicas (Estabilização)

Os pesquisadores descobriram como consertar essa "ponte" e evitar o colapso:

Ampliar a Ponte (Conector): Eles aumentaram a capacidade do mensageiro (o conector) para que ele pudesse levar mais detalhes da foto para o cérebro. Isso ajudou muito.
Mudar o Formato da Foto (Geometria): Eles perceberam que, para alguns modelos, usar fotos quadradas (como 512x512) funcionava muito melhor do que fotos retangulares esticadas (como 1333x800). Era como se o cérebro do robô preferisse ver o mundo em um formato específico para entender a localização dos objetos.

4. O Que Aprendemos? (As Lições)

Tamanho não é tudo: Ter um modelo de visão gigante e com alta precisão em testes de classificação de imagens (saber se é um gato ou um cachorro) não garante que ele será bom em conversar sobre a imagem. Às vezes, modelos menores e mais especializados são melhores.
O VMamba é um forte concorrente: O modelo SSM (VMamba) provou ser uma alternativa excelente aos modelos tradicionais. Ele é eficiente, consome menos recursos e, com os ajustes certos, é muito preciso em localizar objetos.
O segredo está no equilíbrio: Para um robô de visão e linguagem funcionar bem, você precisa de três coisas trabalhando juntas:
1. Um bom modelo de visão (os olhos).
2. Um objetivo de treino adequado (treinar para detectar objetos, não apenas classificá-los).
3. Uma ponte estável entre os olhos e o cérebro (o conector e o formato da imagem).

Em Resumo

Este paper diz: "Pare de usar apenas os óculos tradicionais. Existem óculos novos (SSM/VMamba) que são mais eficientes e, se você ajustar a forma como eles se conectam ao cérebro do robô, eles podem ser ainda melhores do que os gigantes atuais, especialmente para tarefas que exigem precisão de onde as coisas estão."

É como descobrir que, para dirigir um carro de corrida, você não precisa necessariamente do motor mais caro do mercado; às vezes, um motor mais inteligente e bem ajustado à pista (a interface) faz toda a diferença.

Each language version is independently generated for its own context, not a direct translation.

Título: Os Modelos Visão-Linguagem (VLMs) Precisam de Vision Transformers? Avaliando Modelos de Espaço de Estado como Codificadores Visuais

1. Problema e Motivação

Os Modelos Visão-Linguagem (VLMs) modernos geralmente seguem uma arquitetura modular onde um codificador visual (backbone) extrai características de uma imagem, que são então mapeadas para o espaço de embeddings de um Grande Modelo de Linguagem (LLM) através de um conector leve.

Limitação Atual: A maioria dos sistemas utiliza exclusivamente Vision Transformers (ViTs) como backbone visual.
Desafio: Comparações anteriores frequentemente alteram múltiplos fatores simultaneamente (objetivo de pré-treinamento, pipeline de treinamento, resolução, design do conector), dificultando o isolamento do impacto da arquitetura visual em si.
Questão Central: Os Modelos de Espaço de Estado (SSM), como o VMamba, que demonstraram forte desempenho em tarefas de visão densa e eficiência computacional, podem ser uma alternativa robusta aos ViTs quando usados como backbones congelados em VLMs? Além disso, como a escolha do backbone afeta a capacidade de localização espacial (grounding) e o raciocínio visual?

2. Metodologia

Os autores realizaram uma avaliação controlada e sistemática, seguindo um design estilo LLaVA, onde apenas o backbone visual é trocado, mantendo o restante do pipeline (conector, LLM, dados de treinamento e hiperparâmetros) idêntico.

Configuração Controlada (Matched Setting):
- Comparação de backbones pré-treinados no ImageNet-1K (IN1K) com resolução de entrada de 224x224.
- Extração de features com o mesmo número de tokens visuais ( $L=196$ ) para garantir comparação justa entre arquiteturas hierárquicas (VMamba, MaxViT, MambaVision) e o ViT padrão.
- Backbones testados: ViT, MaxViT, MambaVision (híbrido) e VMamba (SSM puro).
Adaptação para Tarefas Densas:
- Avaliação de checkpoints adaptados para detecção de objetos (COCO) e segmentação semântica (ADE20K) para testar se objetivos densos melhoram o desempenho em VLMs.
Análise de Falhas e Estabilização:
- Investigação de modos de falha, como o "colapso de localização" (onde o desempenho de grounding cai abruptamente em certas configurações).
- Proposta de estratégias de estabilização: aumento da capacidade do conector (MLP mais profundo) e ajuste da geometria de entrada (resoluções quadradas vs. retangulares).
Benchmarks:
- VQA (Visual Question Answering): VQA-v2, GQA, VizWiz, TextVQA, POPE, TallyQA.
- Localização/Grounding: RefCOCO, RefCOCO+, RefCOCOg, OCID-Ref.

3. Principais Contribuições

Avaliação Controlada de Backbones: Primeira comparação rigorosa que isola o efeito da arquitetura visual (SSM vs. Transformer) em VLMs congelados, sem confusão com dinâmicas de treinamento conjunta.
Evidência Empírica do VMamba: Demonstração de que backbones baseados em SSM (VMamba) superam ou igualam os ViTs, especialmente em tarefas de localização, mantendo competitividade em VQA.
Diagnóstico de Falhas: Identificação de que a precisão no ImageNet e o escalonamento ingênuo do modelo não são preditores confiáveis para o desempenho em VLMs.
Estratégias de Estabilização: Desenvolvimento de técnicas para corrigir o "colapso de localização" em checkpoints adaptados para detecção, focando na interface visão-linguagem (conector e geometria).

4. Resultados Chave

A. Configuração Matched (ImageNet-1K/224)

Desempenho Geral: O VMamba alcançou o melhor desempenho geral entre todas as famílias testadas.
Localização: As variantes VMamba-T (Tiny) e VMamba-S (Small) superaram consistentemente todos os outros métodos (ViT, MaxViT, MambaVision) em todos os benchmarks de grounding.
Paradoxo de Escala: Para backbones ViT e MaxViT, maior precisão no ImageNet ou modelos maiores frequentemente resultaram em pior desempenho no VLM. Em contraste, o VMamba manteve-se robusto, embora também tenha mostrado degradação em escalas muito grandes (VMamba-B).

B. Adaptação para Tarefas Densas (Detecção/Segmentação)

Benefício Geral: O ajuste fino com objetivos densos (detecção ou segmentação) melhorou o desempenho tanto em VQA quanto em localização para ambas as famílias (SSM e Transformer).
Colapso de Localização: Certas configurações de detecção (especialmente ViTDet-L/H e VMamba-T/B em resoluções não quadradas) sofreram uma queda abrupta no desempenho de grounding.
Solução: A mudança para uma geometria de entrada quadrada (512x512) e o aumento da capacidade do conector (MLP de 3 camadas) recuperaram e até superaram o desempenho das versões baseadas em ImageNet, eliminando o colapso.

C. Análise de Causa Raiz

Viabilidade do SSM: O VMamba preserva melhor a estrutura espacial devido ao seu mecanismo de escaneamento 2D seletivo (SS2D), que atualiza o estado em quatro direções, incorporando viés indutivo espacial na arquitetura. O ViT, sendo invariante à permutação, depende apenas de posições codificadas, que podem ser subutilizadas.
Falha de Interface: O colapso de localização não é devido à falta de informação espacial no encoder, mas sim a um gargalo na transmissão (capacidade do conector) ou na utilização (capacidade do LLM de interpretar os tokens espaciais) dessa informação.

5. Significado e Conclusão

O trabalho estabelece que:

SSMs são Alternativas Viáveis: Os Modelos de Espaço de Estado (como o VMamba) são uma alternativa forte e eficiente aos Vision Transformers para VLMs, oferecendo melhor desempenho em tarefas que exigem raciocínio espacial e grounding, muitas vezes com modelos menores.
Métricas Enganosas: A precisão no ImageNet e o tamanho do modelo não são métricas suficientes para prever a qualidade de um VLM. A preservação de informações espaciais é crucial.
Importância da Interface: O design do VLM não depende apenas do backbone, mas da interação entre o backbone, o objetivo de pré-treinamento e a interface (conector e geometria de entrada). Estabilizar essa interface é essencial para liberar o potencial de backbones adaptados para tarefas densas.

Em suma, o estudo sugere que a comunidade deve expandir o espaço de busca de arquiteturas para VLMs além dos Transformers, considerando SSMs como uma escolha promissora para modelos eficientes e espacialmente precisos.