Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem vários chefs de cozinha incríveis. Um é especialista em sobremesas, outro em carnes, e um terceiro em pratos vegetarianos. Agora, você quer criar um "Super-Chef" único que saiba fazer tudo isso perfeitamente, mas sem ter que treiná-lo do zero (o que levaria anos e custaria uma fortuna).

A ideia de fusão de modelos (model merging) é exatamente essa: misturar os "cérebros" (os pesos) desses chefs para criar um único.

O problema é que, até agora, a maneira como fazíamos essa mistura era como se estivéssemos jogando tudo numa tigela e mexendo com uma colher de pau de forma aleatória. O resultado? O "Super-Chef" ficava confuso, esquecia receitas e fazia pratos ruins. Isso acontece porque os modelos de IA não vivem em um espaço plano e simples; eles vivem em um "espaço curvo" e complexo.

Aqui está a explicação do trabalho de Jiayu Wang e sua equipe, usando analogias do dia a dia:

1. O Problema: A Colher de Pau vs. O Mapa Curvo

Os métodos antigos tentavam misturar os modelos usando uma média simples (como calcular a média de notas de alunos).

A analogia: Imagine que você e um amigo estão em dois pontos diferentes de uma montanha. Se vocês tentarem se encontrar andando em linha reta (através da montanha, como um túnel), vocês vão acabar caindo num vale profundo ou se perdendo.
O que acontece na IA: Quando misturamos modelos muito diferentes (ex: um focado em matemática e outro em poesia) usando métodos simples, a "energia" do modelo cai. As ativações internas do cérebro da IA encolhem, e ele perde a capacidade de pensar criativamente. Isso é chamado de colapso (collapse). O modelo vira um "zumbi" que não sabe fazer nada bem.

2. A Solução: O Caminho Curvo (Geodésica)

Os autores propõem uma nova maneira de misturar, baseada na geometria de algo chamado Manifold Fisher-Rao.

A analogia: Em vez de cortar caminho através da montanha (linha reta), eles propõem que o "Super-Chef" siga o caminho natural da montanha (o caminho mais curto sobre a superfície curva). Na geografia, isso se chama geodésica.
O que é o "Média de Karcher": Pense nisso como encontrar o ponto de encontro perfeito onde todos os chefs se sentem confortáveis, sem precisar descer para o vale. É um ponto de equilíbrio que respeita a curvatura natural do conhecimento de cada especialista.

3. Como eles fizeram na prática? (O "Proxy Esférico")

Calcular esse caminho perfeito na montanha é matematicamente muito difícil e lento para computadores gigantes. Então, eles criaram um "truque inteligente" (um proxy).

A analogia: Imagine que, em vez de calcular a curvatura exata da Terra, eles tratam cada pedaço do cérebro do modelo como se estivesse na superfície de uma bola perfeita. Eles mantêm o "tamanho" (norma) das receitas dos chefs iguais, apenas ajustando a direção.
O resultado: Eles conseguem fazer a mistura seguindo a curva correta, mas de forma rápida e leve, sem precisar de supercomputadores extras.

4. Os Resultados: Por que isso é incrível?

O artigo mostra que, quando você mistura poucos modelos (2 ou 3), os métodos antigos funcionam bem. Mas, quando você tenta misturar muitos modelos (5, 10 ou mais) que são muito diferentes entre si:

Os métodos antigos: Desmoronam. O desempenho cai drasticamente. É como tentar misturar 10 receitas diferentes numa tigela e esperar que saia um bolo perfeito; vira uma sopa sem graça.
O método deles (Karcher): Mantém a estabilidade. O "Super-Chef" continua sabendo cozinhar tudo, mesmo com muitos especialistas envolvidos. Eles provaram que o novo método evita o "colapso" (o cérebro da IA não fica "preguiçoso" ou sem ideias).

Resumo em uma frase

Em vez de misturar modelos de IA como se fossem tintas em uma mesa plana (o que estraga a cor), os autores criaram um método que mistura esses modelos seguindo as curvas naturais do conhecimento, garantindo que o resultado final seja um "Super-Chef" que não perde suas habilidades, mesmo quando juntamos muitos especialistas diferentes.

Por que isso importa?
Isso permite que a comunidade crie modelos mais inteligentes e versáteis sem precisar gastar milhões de dólares para treiná-los do zero. É como dar um upgrade gratuito em um carro, misturando as melhores peças de vários carros de corrida, sem quebrar o motor.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Functionality-Oriented LLM Merging on the Fisher–Rao Manifold", estruturado conforme solicitado:

1. O Problema

A fusão de modelos (model merging) visa combinar múltiplos Grandes Modelos de Linguagem (LLMs) ajustados (fine-tuned) em um único modelo sem necessidade de retreinamento. No entanto, as abordagens existentes enfrentam três limitações práticas fundamentais:

Heurísticas no Espaço Euclidiano: Métodos comuns, como a média linear de pesos ou vetores de tarefas, operam em coordenadas euclidianas. Isso ignora que o objetivo real é fundir funcionalidades (comportamentos preditivos), e não apenas parâmetros.
Colapso de Representação: Quando os modelos fonte estão distantes ou são heterogêneos, a fusão euclidiana frequentemente desencadeia um "colapso de representação". Isso se manifesta como:
- Colapso de Variância: Redução da variância das ativações (tornando-as pouco dependentes da entrada).
- Colapso de Rank: Degradação da dimensionalidade efetiva das ativações.
- Resultado: Queda acentuada na precisão e na perplexidade.
Escalabilidade Limitada: Métodos inspirados em geometria (como interpolação SLERP) funcionam bem para dois modelos, mas não se estendem de forma limpa ou com objetivo principista para a fusão de $N > 2$ especialistas.

2. Metodologia

Os autores propõem reformular a fusão de modelos como o cálculo de uma Média de Karcher/Fréchet no Manifold de Fisher-Rao.

Fundamento Teórico: Em vez de minimizar a distância euclidiana entre parâmetros, o método minimiza a distância funcional baseada na Divergência de Kullback-Leibler (KL) entre as distribuições preditivas dos modelos. A métrica de Fisher-Rao conecta a geometria do espaço de parâmetros à divergência no espaço de distribuições.
Objetivo: Dado um conjunto de especialistas $\{\theta^{(i)}\}$ e pesos $\alpha^{(i)}$ , o objetivo é encontrar o modelo $\theta^*$ que minimiza a soma ponderada das distâncias geodésicas de Fisher-Rao:
$\theta^* := \arg \min_{\theta} \sum_{i=1}^N \alpha^{(i)} d_{FR}^2(\theta, \theta^{(i)})$
Isso equivale a minimizar a distância funcional KL em relação aos professores (modelos fonte).
Algoritmo Prático (Proxy Esférico): Calcular mapas log/exp exatos de Fisher-Rao para LLMs modernos é intratável. Os autores derivam um algoritmo de ponto fixo utilizando uma proxy esférica leve:
1. Tratam cada bloco de parâmetros como um vetor e normalizam para a esfera unitária (preservando a norma, o que combate o colapso de norma comum em fusões lineares).
2. Calculam a média de Karcher na esfera usando mapas log/exp fechados.
3. Reescaliam pelo valor médio da norma dos modelos fonte.
4. Esta abordagem reduz-se à interpolação SLERP para dois modelos, mas escala naturalmente para $N > 2$ .
5. O método pode incorporar estimativas de informação de Fisher (diagonal ou KFAC) como pré-condicionamento para proteger direções sensíveis.

3. Contribuições Principais

Formulação Geométrica: A primeira formulação da fusão de modelos como o cálculo de uma média de Karcher ponderada no manifold de Fisher-Rao, visando diretamente a distância funcional (KL).
Algoritmo Escalável: Desenvolvimento de um algoritmo de ponto fixo prático que generaliza a interpolação geodésica (SLERP) de 2 para $N$ modelos, mantendo-se leve computacionalmente.
Evidência Empírica de Estabilidade: Demonstração de que o método proposto permanece estável e supera as linhas de base (baselines) à medida que o número e a heterogeneidade dos modelos fundidos aumentam, mitigando eficazmente os diagnósticos de colapso (variação e rank).

4. Resultados Experimentais

Os experimentos foram realizados na família de modelos Qwen2.5 (de 135M a 14B parâmetros) em diversos benchmarks (HellaSwag, BBH, MMLU-Pro, MuSR, GPQA-Diamond).

Fusão de 2 Modelos ( $m=2$ ): O método KARCHER superou consistentemente todas as linhas de base (incluindo LERP, SLERP, TIES, DARE, Model Stock), alcançando a melhor média geral (0.597 vs 0.577 do LERP).
Fusão de Múltiplos Modelos ( $m=5$ a $m=11$ ):
- Colapso das Linhas de Base: Métodos baseados em regras euclidianas (como LERP, TIES, DARE) sofreram um colapso abrupto de desempenho quando o número de modelos fundidos atingiu cerca de 5, caindo para níveis de desempenho muito baixos (ex: média de 0.239 para SLERP em $m=5$ ).
- Estabilidade do KARCHER: O método proposto manteve-se estável e até melhorou ligeiramente o desempenho conforme o número de modelos aumentou, alcançando uma média de 0.610 para $m=5$ e mantendo-se alto para $m=11$ (0.605).
Análise de Colapso (Diagnósticos):
- Variância de Ativação: O KARCHER preservou a variância das ativações em camadas médias e profundas, enquanto métodos como LERP e TIES mostraram redução drástica.
- Rank Efetivo (EffRank): O método proposto manteve um rank efetivo significativamente maior, indicando que a dimensionalidade intrínseca das representações não foi degradada, ao contrário das fusões interpolativas tradicionais.

5. Significado e Conclusão

O trabalho estabelece que a fusão de modelos deve ser tratada como um problema de geometria de informação, não apenas de álgebra linear.

Por que funciona: Quando os modelos fonte estão distantes (alta heterogeneidade), a "corda" euclidiana (média linear) corta através de regiões de alta perda, causando colapso. A média de Karcher segue uma "geodésica" que permanece na variedade de alto desempenho que conecta os especialistas.
Impacto: O método permite a criação de modelos fundidos robustos a partir de conjuntos grandes e diversos de especialistas sem retreinamento, resolvendo o problema de instabilidade que limitava a escalabilidade da fusão de modelos.
Limitações: O método depende de aproximações (proxy esférico) e não fornece garantias de convergência global para conjuntos arbitrários de especialistas, além de assumir acesso aos parâmetros do modelo.

Em resumo, o KARCHER oferece uma solução geometricamente fundamentada para a fusão de LLMs, superando as falhas de colapso de representação que afetam os métodos atuais, especialmente em cenários de fusão em larga escala e alta heterogeneidade.

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

1. O Problema: A Colher de Pau vs. O Mapa Curvo

2. A Solução: O Caminho Curvo (Geodésica)

3. Como eles fizeram na prática? (O "Proxy Esférico")

4. Os Resultados: Por que isso é incrível?

Resumo em uma frase

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers