Domain-Adaptive Model Merging across Disconnected Modes

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de especialistas: um é um mestre em identificar gatos, outro é o melhor do mundo em reconhecer carros, e um terceiro é um gênio em entender textos sobre crises humanitárias.

O problema é que, por questões de privacidade ou custo, esses especialistas não podem compartilhar seus cadernos de anotações (os dados brutos) entre si. Eles precisam trabalhar separados. A pergunta é: como juntamos todo esse conhecimento em um único "Super-Especialista" sem precisar ver os cadernos originais?

É aqui que entra o DMM (a técnica proposta neste artigo), que funciona como um "maestro genial" capaz de orquestrar essa união. Vamos explicar como isso funciona usando analogias do dia a dia:

1. O Problema: A Reunião Desconectada

Normalmente, quando tentamos juntar esses especialistas, acontece uma de duas coisas ruins:

A Média Cega: Se você apenas tirar a média das opiniões deles, o especialista em gatos pode "apagar" o conhecimento raro do especialista em carros, porque o grupo de gatos é maior. O resultado é um modelo mediano que não é bom em nada.
O Conflito: Se os especialistas são muito diferentes (um olha para carros, outro para gatos), tentar fundi-los direto causa uma "briga" no cérebro do modelo, e ele para de funcionar direito.

2. A Solução: O Método DMM (3 Passos Mágicos)

O DMM resolve isso em três etapas simples:

Passo 1: Treinamento Independente (Cada um no seu canto)

Primeiro, cada especialista treina seu próprio modelo com seus dados privados. Eles ficam ótimos no que fazem, mas isolados.

Passo 2: A Fusão Estável (Juntando os parecidos)

O DMM olha para os especialistas e diz: "Vocês dois são muito parecidos, podem se abraçar". Ele funde primeiro os modelos que têm conhecimentos similares. Isso cria uma base sólida e estável, como construir a fundação de uma casa.

Passo 3: O "Detetive de Memória" (A parte mais genial)

Aqui está a mágica. E os especialistas que são muito diferentes (os "forasteiros")? Em vez de jogá-los fora (o que faria perder conhecimentos raros e importantes), o DMM usa um truque:

A "Fotografia Fantasma": Em vez de pedir os dados originais (que são proibidos), o DMM olha para as estatísticas internas dos modelos (como a "memória" de quais cores ou padrões eles viram mais). Com base nisso, ele cria imagens e textos falsos (pseudo-dados) que imitam a essência desses dados. É como se ele desenhasse um "esboço" do que o especialista viu, sem precisar ver a foto real.
A Lição Rápida: Com esses esboços, o DMM faz uma aula rápida (distilação de conhecimento) com o "Super-Especialista" já formado. Ele diz: "Olhe, este esboço é o que o especialista em carros viu. Aprenda isso!".
O Resultado: O modelo final aprende o conhecimento comum (dos parecidos) e também absorve os detalhes raros e críticos dos especialistas diferentes, tudo sem violar a privacidade.

3. Por que isso é incrível?

Privacidade Total: Ninguém precisa mostrar seus dados. É como se o maestro lesse apenas a "assinatura" da música que os músicos tocaram, sem precisar ouvir a gravação completa.
Economia: Não precisa gastar milhões treinando do zero. É apenas um ajuste fino rápido.
Precisão: O modelo final é melhor do que a soma das partes. Ele não esquece os detalhes raros (como um tipo específico de carro ou uma nuance de texto) que outros métodos costumam apagar.

Resumo em uma frase

O DMM é como um chef de cozinha que, sem poder entrar nas cozinhas privadas de vários restaurantes, consegue criar um prato perfeito combinando os melhores sabores de cada um, usando apenas as "receitas" (estatísticas) que eles deixaram para trás, garantindo que nenhum ingrediente especial se perca no processo.

Os testes mostraram que essa técnica funciona muito bem, tanto para imagens quanto para misturar imagens e textos, superando todas as outras técnicas atuais, especialmente quando os dados são muito diferentes entre si.

Each language version is independently generated for its own context, not a direct translation.

Título: DMM: Uma Abordagem Livre de Dados para Fusão de Modelos em Cenários de Alta Heterogeneidade

1. O Problema

O aprendizado de máquina em múltiplos domínios enfrenta desafios significativos quando os dados não podem ser centralizados devido a:

Restrições de Privacidade: Regulamentações que impedem o compartilhamento de dados brutos.
Heterogeneidade de Dados: Distribuições de dados não independentes e não identicamente distribuídas (Non-IID) entre diferentes domínios.
Custos de Aquisição: Dificuldade em reunir todos os dados para treinar um único modelo abrangente.

A fusão de modelos (Model Merging) surge como uma alternativa, consolidando conhecimento de vários modelos especializados em um único, sem necessidade de compartilhar dados ou retreinar do zero. No entanto, as abordagens atuais possuem limitações críticas:

Supressão de Conhecimento Raro: Métodos que ponderam modelos baseados no tamanho do conjunto de dados tendem a ignorar modelos treinados em amostras escassas, mas altamente discriminativas.
Falha em Modelos Divergentes: Técnicas que assumem que os modelos residem na mesma "bacia de otimização" (similaridade paramétrica) falham quando os modelos são altamente divergentes, frequentemente descartando-os para manter a estabilidade.
Dependência de Dados Auxiliares: Muitos métodos exigem dados de validação ou retreinamento pesado, o que viola o princípio de "livre de dados" (data-free) em ambientes restritos.

2. Metodologia: O Framework DMM

Os autores propõem o DMM (Data-free Model Merging), um framework de três etapas projetado para lidar com modelos altamente divergentes sem acesso aos dados originais de treinamento.

Etapa 1: Treinamento Independente
Modelos específicos de domínio são treinados independentemente em seus respectivos conjuntos de dados, resultando em modelos especializados ( $W_1, ..., W_K$ ) e seus desvios paramétricos ( $\Delta W_k$ ) em relação a uma rede pré-treinada ( $W_0$ ).

Etapa 2: Agregação de Buffers e Inversão de Dados
Para lidar com a divergência e a falta de dados, o DMM utiliza estatísticas de normalização (Batch Normalization) como proxies para a distribuição de dados:

Agregação de Buffers: Os buffers de média ( $\mu$ ) e variância ( $\sigma^2$ ) de todos os modelos são agregados ponderadamente pelo número de lotes processados. Isso cria estatísticas globais que representam a distribuição combinada.
Inversão de Dados (Data Inversion): Inspirado no DeepInversion, o framework otimiza uma entrada sintética (pseudo-dados) para que suas ativações normalizadas correspondam às estatísticas globais agregadas. Isso gera dados sintéticos leves que refletem a distribuição global sem usar dados reais.

Etapa 3: Destilação de Conhecimento Livre de Dados para Resolução de Conflitos
Para integrar modelos divergentes sem perder conhecimento raro:

Identificação de Divergência: Calcula-se uma pontuação de divergência ( $\tau_k$ ) para cada modelo em relação ao modelo fundido, combinando dissimilaridade paramétrica e heterogeneidade inferida pelos buffers.
Destilação Seletiva: Modelos considerados "outliers" (altamente divergentes) são tratados como professores. Utilizando os pseudo-dados gerados na etapa anterior, aplica-se uma destilação de conhecimento leve.
Critério de Confiabilidade: A destilação ocorre apenas em amostras onde o modelo professor (divergente) tem alta confiança, mas o modelo estudante (fundido) tem alta incerteza (entropia). Isso transfere conhecimento específico de domínio que seria perdido, corrigindo o modelo fundido com poucos passos de ajuste fino (fine-tuning).

3. Principais Contribuições

Método de Agregação em Nível de Buffer: Uma técnica teórica e prática para alinhar estatísticas globais entre modelos desconectados, servindo como base para a geração de dados sintéticos.
Estratégia de Destilação Livre de Dados: Um mecanismo inovador que sintetiza pseudo-dados a partir de estatísticas de normalização para extrair conhecimento de modelos divergentes, permitindo a retenção de informações raras e críticas sem violar restrições de privacidade.
Validação Abrangente: Demonstração de que o DMM supera consistentemente métodos de estado da arte (SOTA) em benchmarks unimodais (classificação de imagem) e multimodais (imagem-texto), especialmente em cenários de alta heterogeneidade de dados.

4. Resultados Experimentais

Os experimentos foram realizados em três benchmarks: CIFAR-10, CIFAR-100 e CrisisMMD (multimodal). As comparações incluíram métodos de Federated Learning (FedAvg, FedProx) e fusão de modelos (Cat-Merge, Git Re-Basin).

Desempenho em Heterogeneidade Extrema (Non-IID): Em cenários com alta dispersão de dados ( $\alpha = 0.01$ $α = 0.01$ no parâmetro Dirichlet), o DMM demonstrou ganhos substanciais.
- No CIFAR-10, ao combinar DMM com FedAvg, a acurácia saltou de 36,76% (FedAvg puro) para 53,66%.
- No CrisisMMD (multimodal), a melhoria foi ainda mais drástica, subindo de 22,50% para 30,46% sob alta heterogeneidade.
Comparação com Fusão de Modelos: O DMM também melhorou métodos de fusão existentes (ex: Cat-Merge + DMM superou o Cat-Merge base em todos os cenários), confirmando sua compatibilidade com técnicas robustas de fusão.
Estudo de Ablação: A análise mostrou que cada componente (agregação de buffer, aumento de dados por inversão e destilação de conhecimento) contribui incrementalmente para o desempenho final, sendo a combinação completa superior.
Eficiência: O método mantém um custo computacional comparável às bases, sem necessidade de modelos generativos pesados (como GANs ou Diffusion Models).

5. Significado e Conclusão

O trabalho DMM representa um avanço significativo na área de adaptação de modelos e fusão de redes neurais. Sua principal inovação é a capacidade de reconciliar conhecimento comum e conhecimento raro em ambientes onde os dados são fragmentados e privados.

Ao eliminar a dependência de dados brutos ou auxiliares e focar na extração de conhecimento através de estatísticas de normalização e destilação seletiva, o DMM oferece uma solução prática e escalável para construir modelos unificados robustos em cenários do mundo real, onde a privacidade e a heterogeneidade de dados são barreiras intransponíveis para o treinamento centralizado tradicional.