OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem vários chefs de cozinha incríveis, cada um especializado em algo diferente: um é o melhor do mundo em fazer sobremesas, outro em carnes, outro em pratos vegetarianos e outro em pães.

Até agora, se você quisesse um restaurante que servisse tudo isso, teria duas opções ruins:

Contratar todos os chefs, o que é caro e ocupa muito espaço (armazenamento).
Tentar treinar um único chef novato para aprender tudo de uma vez, o que leva anos e exige ingredientes (dados) que talvez você não tenha.

O papel OptMerge traz uma solução brilhante e simples: em vez de treinar um novo chef, você mistura as "receitas" (os modelos) dos chefs existentes para criar um "Super-Chef" instantaneamente.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: Modelos Especializados vs. Modelos Gerais

Os grandes modelos de Inteligência Artificial (como os que entendem texto e imagens) são como gênios que demoram anos para serem treinados. Enquanto isso, desenvolvedores criam versões menores e mais rápidas que são especialistas em coisas específicas (como ler documentos, resolver geometria ou entender gráficos).

O problema é que esses especialistas são "cegos" para outras áreas. O especialista em geometria não sabe ler um gráfico de pizza. Guardar todos eles separados é caro e chato.

2. A Solução: A "Fusão de Modelos" (Model Merging)

A ideia de fusão é pegar os pesos matemáticos (as "receitas") desses modelos especialistas e combiná-los em um único arquivo. É como se você pegasse o conhecimento do Chef de Sobremesas e o do Chef de Carnes e os fundisse em uma única mente.

O Desafio: Se você apenas misturar as receitas aleatoriamente, o resultado pode ser um desastre (um bolo salgado com carne crua). Os modelos "brigam" entre si, e o resultado fica pior do que os originais.

3. A Inovação: O "OptMerge" (O Mestre da Mistura)

Os autores criaram um novo método chamado OptMerge. Pense nele como um chef de fusão de elite que sabe exatamente como misturar as receitas sem estragar nada.

Limpeza de Ruído: Quando os modelos aprendem, eles ganham "hábitos" ruins ou detalhes desnecessários (ruído). O OptMerge age como um peneira, removendo esses hábitos ruins antes de misturar.
Otimização Inteligente: Em vez de apenas somar as receitas, ele ajusta a mistura para garantir que o "Sabor" (a capacidade de resolver problemas) de cada especialista seja preservado, mas sem que eles se anulem.

4. O "Banco de Testes" (Benchmark)

Antes disso, ninguém tinha uma "prova de fogo" clara para testar se essa mistura funcionava bem em Multimodalidade (modelos que veem, ouvem e leem).
Os autores criaram um laboratório de testes com 5 áreas diferentes:

VQA: Responder perguntas sobre imagens.
Geometria: Resolver problemas de formas.
Gráficos: Entender tabelas e gráficos.
OCR: Ler texto dentro de imagens (como placas ou documentos).
Localização: Encontrar objetos específicos em uma foto.

Eles treinaram modelos especialistas em cada uma dessas áreas e depois tentaram fundi-los.

5. Os Resultados: O "Super-Homem" Multimodal

O resultado foi surpreendente:

Melhor que a média: O modelo fundido (OptMerge) ficou tão bom quanto os especialistas originais em suas áreas, mas conseguiu fazer tudo ao mesmo tempo.
Sem novos dados: O segredo mais legal é que eles não precisaram de novos dados para treinar. Eles apenas pegaram os modelos que já existiam e os fundiram. É como se você pudesse criar um novo super-herão apenas combinando os poderes dos heróis antigos, sem precisar de um laboratório de mutação.
Economia: Isso economiza tempo, dinheiro e energia de computador, pois não é necessário re-treinar o modelo do zero.

6. O Futuro: O "Modelo Omni"

O papel sugere que, no futuro, poderemos ter um único modelo que entende tudo: texto, áudio, vídeo e imagem.
Imagine um assistente que pode:

Ver um vídeo de um show de rock (vídeo).
Ouvir a música (áudio).
Ler a letra da música na tela (texto/OCR).
E responder: "Qual é a emoção da música e o que está escrito no cartaz ao fundo?"

Hoje, você precisaria de três modelos diferentes. Com o OptMerge, você pode fundir um modelo de vídeo, um de áudio e um de texto em um único cérebro que entende o mundo inteiro.

Resumo em uma frase:

O OptMerge é uma técnica mágica que pega vários especialistas de IA (um em matemática, outro em leitura, outro em visão) e os funde em um único "Super-Especialista" sem precisar de novos dados de treinamento, economizando tempo e dinheiro enquanto melhora a inteligência da máquina.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os modelos fundacionais (Foundation Models) sofrem de ciclos de desenvolvimento lentos devido aos custos intensivos de treinamento, enquanto modelos específicos de domínio evoluem rapidamente. A fusão de modelos (model merging) surge como uma solução para combinar múltiplos modelos especialistas em um único modelo mais capaz, reduzindo custos de armazenamento e inferência, além de permitir o desenvolvimento descentralizado.

No entanto, existem lacunas significativas na pesquisa atual de fusão para Modelos de Linguagem Multimodal (MLLMs):

Falta de Benchmarks Específicos: Não existia um benchmark que dividisse claramente as tarefas de treinamento e avaliação de MLLMs. Trabalhos anteriores focavam em modelos de classificação visual ou LLMs para código/matemática.
Limitações de Métodos Atuais: Métodos existentes (como AdaMMS ou UQ-Merge) muitas vezes exigem dados de teste não rotulados, buscam hiperparâmetros complexos, ou só conseguem fundir dois modelos por vez, sem categorização clara das capacidades multimodais.
Desafio de Modalidades: Integrar novas modalidades (áudio, vídeo) geralmente requer re-treinamento massivo com dados instrucionais multimodais de alta qualidade, o que é caro e demorado.

O objetivo do trabalho é criar um framework para fundir MLLMs de forma livre de dados (data-free), combinando tanto capacidades especializadas (ex: OCR, Geometria) quanto diferentes modalidades (visão, áudio, vídeo) em direção a um modelo "Omni-language".

2. Metodologia

O trabalho propõe três pilares principais: um novo benchmark, uma análise teórica e um novo algoritmo de fusão.

A. Benchmark de Fusão de MLLMs

Os autores criaram o primeiro benchmark dedicado à fusão de MLLMs, cobrindo:

Modelos Base: InternVL2.5 (1B, full fine-tuning) e Qwen2-VL (7B, LoRA).
Categorias de Tarefas: VQA (Visual Question Answering), Geometria, Gráficos (Chart), OCR e Grounding (localização de objetos).
Dados: Coleta de datasets públicos com pelo menos 100k amostras por tarefa para fine-tuning supervisionado.
Fusão de Modalidades: Criação de modelos especializados em visão, áudio e vídeo, fundidos posteriormente para criar um modelo Omni.

B. Análise Teórica e Observações

Os autores revisitam a relação entre fine-tuning e fusão:

Teorema 3.1: Demonstra que o desempenho da fusão é influenciado pela taxa de aprendizado e pelo número de iterações.
Descoberta Contra-intuitiva: Modelos especialistas com desempenho máximo em suas tarefas individuais nem sempre produzem a melhor fusão. O overfitting (excesso de treinamento) causa um desvio excessivo de parâmetros (parameter drift), aumentando a interferência entre tarefas.
Estratégia: Para otimizar a fusão, é preferível manter as mudanças de parâmetros pequenas (controlando a taxa de aprendizado e iterações) para que os modelos permaneçam em bacias de perda adjacentes ao modelo base.

C. O Método Proposto: OptMerge

O OptMerge é um método inovador que otimiza o vetor de tarefa (a diferença entre os parâmetros do modelo ajustado e o base) para remover ruído e melhorar a robustez.

Redução de Ruído via SVD (Para Full Fine-Tuning):
- Os vetores de tarefa contêm redundância e ruído. O método aplica uma decomposição em Valores Singulares (SVD) para isolar o conhecimento essencial.
- Utiliza uma aproximação de baixo posto (low-rank approximation), mantendo apenas os componentes singulares principais ( $U_{1:k}, \Sigma_{1:k}, V_{1:k}^\top$ ).
- Substitui o vetor de tarefa original por essa aproximação na função de perda, focando apenas no espaço de características colunar e descartando informações secundárias.
Otimização para LoRA:
- Devido à natureza de baixo posto do LoRA, a otimização direta pode levar a vetores de fusão com normas excessivamente grandes (caminhos curtos para minimizar a perda), causando colapso na capacidade linguística.
- Soluções do OptMerge:
  - Uso de SGD em vez de Adam para melhor escape de ótimos locais planos e regularização implícita.
  - Aplicação de aproximação de baixo posto direta sem centralização para reduzir a energia da cauda dos valores singulares.
  - Inicialização: Inicializar o vetor de fusão com a média dos vetores de tarefa para evitar magnitudes excessivas.

3. Resultados Principais

Os experimentos foram conduzidos em 8 GPUs NVIDIA V100, comparando o OptMerge com 10 métodos de estado da arte (incluindo Task Arithmetic, TIES-Merging, DARE, WUDI Merging).

Desempenho em Tarefas Específicas:
- O modelo fundido com OptMerge superou os modelos especialistas individuais em suas respectivas tarefas e, em muitos casos, superou o treinamento misto (mixture training), que requer dados e computação massivos.
- Ganhos: O OptMerge obteve um ganho médio de 2,48% em comparação com o método anterior mais forte (WUDI Merging).
- Em Qwen2-VL (LoRA), o método alcançou resultados superiores ao Qwen2-VL-Instruct (que foi treinado com dados mistos) em várias métricas, demonstrando que a fusão pode superar o aprendizado multitarefa tradicional.
Fusão de Modalidades (Omni-Modelo):
- Ao fundir modelos de visão, áudio e vídeo, o resultado superou modelos treinados em modalidades individuais.
- O método fundido superou até mesmo métodos de composição online (online composing) que exigem armazenamento de parâmetros separados para cada modalidade, provando a complementaridade das informações multimodais.
Eficiência Computacional:
- A fusão é extremamente eficiente. O tempo de "resolução" (otimização do vetor) foi de 0,22h a 3,78h, comparado a 24h+ para treinamento misto.
- O uso de memória GPU foi drasticamente reduzido (ex: 21.97 GB vs 256 GB para treinamento misto no Qwen2-VL).
Validação em Modelos Reais:
- Ao fundir checkpoints reais coletados do Hugging Face (modelos de raciocínio matemático, Pokémon, OCR, etc.), o OptMerge criou um sistema mais robusto e integrado do que qualquer modelo individual.

4. Contribuições Chave

Benchmark Abrangente: Introdução do primeiro benchmark de fusão de MLLMs com categorização granular de capacidades (VQA, Geometria, Chart, OCR, Grounding) e suporte a diferentes estratégias de ajuste (LoRA e Full Fine-Tuning).
Método OptMerge: Proposição de uma técnica simples, mas eficaz, que remove ruído dos vetores de tarefa via SVD e otimiza a fusão com regularização de norma, alcançando ganhos consistentes sem necessidade de dados de treinamento.
Validação Empírica e Teórica: Demonstração de que a fusão de modelos pode superar o treinamento misto (mixture training) e que a complementaridade entre modalidades é superior ao uso de modalidades isoladas.

5. Significado e Impacto

O trabalho OptMerge oferece um caminho escalável e economicamente viável para o desenvolvimento de MLLMs avançados.

Redução de Custos: Elimina a necessidade de grandes conjuntos de dados de treinamento e poder computacional massivo para criar modelos multimodais unificados.
Privacidade e Descentralização: Permite que desenvolvedores independentes criem modelos especializados que podem ser fundidos posteriormente sem compartilhar dados brutos, preservando a privacidade.
Caminho para Modelos "Omni": A fusão eficiente de diferentes encoders de modalidade (visão, áudio, vídeo) em um único LLM abre portas para a criação de modelos verdadeiramente "Omni-language" capazes de raciocínio espacial-temporal e compreensão multimodal integrada.

Em resumo, o artigo estabelece que a fusão de modelos não é apenas uma alternativa de baixo custo ao treinamento misto, mas uma estratégia que, quando bem executada (como no OptMerge), pode gerar modelos com capacidades emergentes e desempenho superior.