Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um computador a "ver" e "entender" o mundo como um humano, não apenas reconhecendo que há um gato na foto, mas entendendo que o gato está com medo porque um cachorro está latindo, ou lendo um pequeno texto em um cartaz ao fundo.

Este artigo de pesquisa apresenta uma nova inteligência artificial chamada Leo, criada por pesquisadores da Universidade de Waterloo. O Leo é especialista em Multimodalidade (entender texto e imagens juntos).

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: O "Olho" Único Não é Suficiente

Antes do Leo, a maioria dos modelos de IA usava apenas um "olho" (um único modelo de visão) para analisar imagens.

A Analogia: Imagine tentar ver um filme de ação complexo usando apenas um óculos de sol escuro. Você vê a cena, mas perde os detalhes finos, as cores vibrantes e as expressões sutis.
O Desafio: Quando a imagem é muito grande ou cheia de detalhes (como um mapa de trânsito ou um documento cheio de letras miúdas), esse "único olho" fica sobrecarregado ou perde informações importantes.

2. A Solução: O "Time de Especialistas" (MoVE)

Os pesquisadores decidiram não usar apenas um olho, mas sim um Time de Especialistas. Eles chamam isso de Mixture of Vision Encoders (Mistura de Codificadores de Visão).

A Analogia: Em vez de ter um único policial no posto de controle, você tem uma equipe:
- Um especialista em leitura (ótimo para ler placas e textos).
- Um especialista em formas e bordas (ótimo para ver onde as coisas terminam e começam).
- Um especialista em contexto geral (ótimo para entender a cena inteira).
O Leo combina esses três especialistas para ter uma visão completa.

3. As Três Grandes Descobertas (O "Segredo" do Leo)

O papel não foi apenas juntar os especialistas; eles descobriram como fazer essa equipe trabalhar junta de forma eficiente. Eles testaram várias formas e encontraram a receita perfeita:

A. Cortar a Pizza em Fatias Inteligentes (Tileamento Dinâmico)

Imagens muito grandes são como pizzas gigantes. Se você tentar olhar a pizza inteira de uma vez de muito perto, seus olhos (ou a memória do computador) não aguentam.

O que o Leo faz: Ele corta a imagem em fatias (pedaços) menores, mas de forma inteligente. Se a imagem é retangular, ele ajusta o tamanho das fatias para cobrir tudo sem desperdício.
O Ganho: Ele consegue ver os detalhes minúsculos (como uma letra em uma placa de carro) sem perder a visão do todo (o cenário da rua).

B. A Dança Perfeita dos Dados (Interleaving)

Como juntar as informações dos três especialistas?

O jeito antigo: Colocar todas as informações do especialista A e depois todas as do especialista B (como ler um livro inteiro de um autor e depois outro). Isso confunde o contexto.
O jeito do Leo: Ele faz uma dança de alternância. Ele pega uma informação do especialista A, depois uma do B, depois do A, depois do B.
A Analogia: É como fazer um sanduíche de camadas finas em vez de colocar toda a carne de um lado e todo o queijo do outro. Isso garante que o cérebro da IA entenda como as características se misturam em cada ponto da imagem.

C. Traduzir Antes de Conversar (Fusão Pós-Adaptação)

Imagine que o especialista A fala "Espanhol" e o especialista B fala "Francês", mas o cérebro da IA (o LLM) só entende "Inglês".

O jeito antigo: Tentar misturar o Espanhol e o Francês antes de traduzir para o Inglês. O resultado é uma sopa de letras sem sentido.
O jeito do Leo: Ele dá um tradutor (um projetor) exclusivo para cada especialista. O especialista A traduz para o Inglês, o B traduz para o Inglês. Só depois que ambos já estão falando a mesma língua que eles se juntam para conversar.
O Ganho: Isso preserva a "personalidade" e os detalhes únicos de cada especialista antes de misturá-los.

4. O Resultado: O Leo

Com essa receita simples mas poderosa, o Leo se tornou um modelo muito eficiente.

Desempenho: Ele supera modelos muito mais complexos e pesados em tarefas como ler documentos, entender gráficos, contar objetos e responder perguntas sobre cenas complexas.
Eficiência: Ele é mais leve e rápido, gastando menos energia computacional.
Versatilidade: O teste mais legal foi aplicá-lo na condução autônoma (carros que se dirigem sozinhos). O Leo conseguiu entender cenas de trânsito, identificar perigos e responder perguntas sobre segurança sem precisar de nenhuma reprogramação especial. Ele apenas "aprendeu" a dirigir com a mesma lógica que aprendeu a ler.

Resumo Final

O Leo é como um detetive superdotado que não usa apenas um par de óculos, mas uma equipe de especialistas trabalhando em harmonia. Em vez de tentar ver tudo de uma vez de forma desorganizada, ele divide a imagem em partes gerenciáveis, traduz a visão de cada especialista para uma linguagem comum e os faz trabalhar juntos em tempo real.

O resultado é uma inteligência artificial que vê o mundo com mais clareza, detalhes e precisão, tudo isso sem precisar de um computador gigante para rodar. É uma prova de que, às vezes, a melhor solução não é fazer as coisas maiores, mas sim fazê-las de forma mais inteligente.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs" (Reconsiderando o Paradigma de Mistura de Codificadores Visuais para Melhorar a Compreensão Visual em LLMs Multimodais), publicado na Transactions on Machine Learning Research (02/2026).

1. O Problema

Os Grandes Modelos de Linguagem Multimodais (MLLMs) têm alcançado desempenho notável alinhando codificadores visuais (como CLIP) com modelos de linguagem (LLMs). No entanto, eles ainda enfrentam desafios significativos em tarefas que exigem percepção de alta granularidade, como reconhecimento óptico de caracteres (OCR) complexo, compreensão de gráficos e análise de cenas detalhadas.

As abordagens existentes para melhorar a compreensão visual geralmente envolvem:

Aumentar a resolução de entrada (o que gera muitos tokens e excede o limite de contexto).
Usar um único codificador visual mais robusto (que pode não capturar todos os aspectos visuais).
Mistura de Codificadores Visuais (MoVE): Integrar múltiplos codificadores pré-treinados para aproveitar suas forças complementares.

Apesar do potencial do MoVE, existem lacunas críticas não resolvidas:

Como combinar efetivamente tokens visuais de codificadores diversos?
Qual é a granularidade ideal para a fusão (nível de imagem, tile ou token)?
A fusão deve ocorrer antes ou depois da adaptação ao espaço multimodal?
É necessário escalar o número de "especialistas" (codificadores) ou o design da fusão é mais importante?

A maioria dos trabalhos anteriores estuda essas estratégias isoladamente, sem uma comparação sistemática de como elas interagem.

2. Metodologia e Estudo Empírico

Os autores realizaram um estudo sistemático para identificar os princípios de design mais eficazes para modelos MoVE, focando em três direções investigativas principais:

A. Tiled MoVE (D1): Integração com Divisão Dinâmica

Em vez de processar imagens de alta resolução inteiras (que geram muitos tokens), o estudo compara métodos de divisão da imagem (tiling).

Abordagem: Dividir a imagem em "tiles" (ladrilhos) e processá-los independentemente, mantendo um contexto global (thumbnail).
Comparação: No-tiling (sem divisão), Fixed-grid (grade fixa), Overlapping (sobreposição) e Dynamic tiling (adaptativa).
Descoberta: A divisão dinâmica (que ajusta o número e a forma dos tiles com base na proporção da imagem) combinada com contexto global superou consistentemente os outros métodos. Isso preserva detalhes finos sem exceder o orçamento de tokens do LLM.

B. Estratégias de Fusão de Tokens (D2)

Como fundir os tokens gerados por dois codificadores diferentes (ex: InternViT e SAM)?

Estratégias Testadas:
1. Sequence Appending (SA): Concatenar sequências de tokens.
2. Sequence Interleaving (SI): Intercalar tokens token a token (ex: $[t_1^{enc1}, t_1^{enc2}, t_2^{enc1}, t_2^{enc2}]$ ).
3. Channel Concatenation (CC): Concatenar canais de características no mesmo token.
4. Cross-Attention (CA): Usar atenção cruzada entre os codificadores.
Descoberta: A intercalação de sequência em nível de tile (Tile-level Sequence Interleaving) obteve os melhores resultados na maioria das combinações. Ela preserva melhor as relações espaciais e melhora a integração de informações em comparação com métodos mais complexos como a atenção cruzada ou concatenação de canais.

C. Timing da Fusão: Pré vs. Pós-Adaptação (D3)

Quando a fusão deve ocorrer no pipeline?

Pré-adaptação: Os tokens dos codificadores são fundidos antes de serem projetados para o espaço do LLM (usando um único projetor compartilhado).
Pós-adaptação: Cada codificador possui seu próprio projetor dedicado. Os tokens são alinhados independentemente ao espaço do LLM e depois fundidos.
Descoberta: A fusão pós-adaptação com projetores independentes superou consistentemente a pré-adaptação. Isso permite que cada codificador preserve suas características específicas antes de serem normalizados e integrados, resultando em melhor raciocínio multimodal.

3. A Arquitetura Proposta: Leo

Com base nas descobertas acima, os autores propõem o Leo, um MLLM leve e eficaz baseado em MoVE.

Arquitetura:
1. Entrada: Imagem dividida dinamicamente em tiles com contexto global.
2. Codificadores: Dois codificadores visuais complementares (ex: InternViT para alinhamento visão-linguagem e SAM para características de segmentação/região).
3. Projeção: Projetores MLP independentes para cada codificador (Pós-adaptação).
4. Fusão: Intercalação de sequência em nível de tile dos tokens projetados.
5. LLM: Backbone de linguagem padrão (InternLM2-7B) para raciocínio conjunto.
Eficiência: O Leo utiliza apenas 612M de parâmetros nos codificadores visuais (menos da metade de modelos concorrentes como Eagle-X3) e opera com 1M de dados de instrução, demonstrando que o design arquitetural é mais crucial do que a escala massiva de dados.

4. Resultados Principais

O Leo foi avaliado em 11 benchmarks de visão-linguagem e no domínio de direção autônoma:

Desempenho Geral: O Leo alcançou resultados superiores na maioria das tarefas em comparação com modelos MoVE existentes (como Eagle, Brave, MouSi, SPHINX).
- Destaque em DocVQA (80.1) e ScienceQA (78.5), superando modelos com muito mais parâmetros e dados de treinamento.
- Melhorias significativas em ChartQA (+3.2%) e VizWiz (+3.7%).
Eficiência:
- Redução de 61.6% nos FLOPs do codificador visual em comparação ao Eagle-X3.
- Redução de 19.6% no tempo de geração.
- Desempenho competitivo com modelos de escala muito maior (como GPT-4V em alguns aspectos) usando recursos limitados.
Generalização (Direção Autônoma):
- O Leo foi aplicado ao domínio de direção autônoma (benchmark LingoQA) sem alterar a arquitetura ou a receita de treinamento.
- Superou todas as bases de código aberto e foi competitivo com o modelo fechado LingoQA, demonstrando forte capacidade de raciocínio em cenas dinâmicas e compreensão de instruções.
Ablação: Estudos mostraram que congelar os codificadores visuais durante o ajuste fino (SFT) funcionou melhor do que ajustá-los, evitando o esquecimento catastrófico dos conhecimentos pré-treinados.

5. Significado e Contribuições

Este trabalho oferece contribuições fundamentais para o campo dos MLLMs:

Mudança de Paradigma: Demonstra que a complexidade arquitetural (como mecanismos de atenção cruzada pesados ou escalas massivas de dados) não é estritamente necessária para o sucesso do MoVE. Designs simples e bem fundamentados (intercalação, projeção independente, tiling dinâmico) são mais eficazes.
Diretrizes Práticas: Estabelece princípios claros para a construção de modelos MoVE:
- Use tiling dinâmico com contexto global.
- Use intercalação de tokens em nível de tile.
- Use fusão pós-adaptação com projetores independentes.
Eficiência e Acessibilidade: O Leo prova que é possível construir modelos de alta performance com recursos computacionais moderados, tornando a pesquisa em MLLMs de alta resolução mais acessível.
Versatilidade: A capacidade de transferir o modelo para domínios especializados (como direção autônoma) sem reengenharia sugere que o Leo captura representações visuais fundamentais e robustas.

Em resumo, o artigo "Rethinking the Mixture of Vision Encoders" não apenas apresenta um novo modelo (Leo), mas redefine como a comunidade deve pensar sobre a integração de múltiplos especialistas visuais, priorizando a eficiência e a preservação de características específicas dos codificadores através de estratégias de fusão inteligentes.