Knowledge Fusion of Large Language Models Via Modular SkillPacks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o seu modelo de IA principal), mas ele só é especialista em fazer pães. Você gostaria que ele também soubesse cozinhar sushi, fazer sobremesas e preparar molhos especiais, mas você não quer contratar novos chefs nem treinar o seu chef atual do zero (o que seria caro e demorado).

Aqui é onde entra o GraftLLM, a técnica apresentada neste artigo.

O Problema: A "Colisão" de Habilidades

Normalmente, para ensinar algo novo a uma IA, você teria que misturar tudo de uma vez. É como se você tentasse ensinar o chef a fazer sushi e pão ao mesmo tempo, misturando os ingredientes na mesma tigela. O resultado? O pão fica com gosto de peixe, o sushi fica com fermento, e o chef fica confuso. Isso é chamado de "esquecimento catastrófico" (ele esquece como fazer pão para tentar fazer sushi).

Outros métodos tentam "cortar" pedaços de outros chefs e costurá-los no seu, mas muitas vezes as roupas não combinam (os modelos são diferentes) ou o corte é muito grande e estraga o corpo do chef.

A Solução: O "Kit de Habilidades" (SkillPack)

O GraftLLM propõe uma ideia brilhante: em vez de misturar tudo, crie Kits de Habilidades (chamados de SkillPacks).

Pense no SkillPack como uma caixa de ferramentas mágica ou um apetrecho de cozinha que você pode colocar e tirar do seu chef principal.

O Chef Base (Target Model): É o seu modelo de IA original. Ele é o "corpo" principal.
O SkillPack: É um pacote pequeno e leve que contém apenas o "segredo" de uma habilidade específica (ex: o segredo para fazer sushi).

Como Funciona a Mágica? (A Analogia do "Enxerto")

O método funciona em três etapas simples:

Aprendizado e Extração:
Primeiro, eles pegam um chef especialista em sushi (um modelo grande e forte) e ensinam o que ele sabe. Depois, em vez de copiar todo o corpo do chef de sushi, eles usam uma técnica especial para extrair apenas as diferenças entre o que o chef de sushi sabe e o que o seu chef de pão sabe. É como se eles tirassem apenas o "cheiro" e a "técnica" do sushi, deixando de lado o resto.
Compressão Inteligente (O "Embalamento"):
Esse "segredo" extraído é grande demais para guardar na sua cozinha. Então, o GraftLLM usa uma máquina de compactação inteligente.
- Para partes que precisam de precisão (como o corte do peixe), ele guarda com cuidado.
- Para partes menos importantes, ele comprime muito (como espremer uma esponja).
- O resultado é um SkillPack minúsculo, leve e fácil de transportar, que contém todo o conhecimento do sushi, mas ocupa pouco espaço.
O Enxerto (Grafting):
Agora, quando você quer que seu chef de pão faça sushi, você planta (graft) o SkillPack de sushi no seu chef.
- Vantagem 1: O chef de pão continua sendo ótimo em fazer pão (ele não esquece).
- Vantagem 2: Ele agora sabe fazer sushi perfeitamente.
- Vantagem 3: Se você quiser que ele faça sobremesas, você tira o SkillPack de sushi e coloca o de sobremesas. É como trocar de óculos ou de chapéu.

Por que isso é revolucionário?

Sem Lixo na Cozinha: Como os SkillPacks são separados, as habilidades não "brigam" entre si. O segredo do sushi não estraga o segredo do pão.
Economia de Espaço: Em vez de ter 10 chefs diferentes ocupando 10 cozinhas gigantes, você tem 1 chef principal e 10 caixas de ferramentas pequenas que cabem num armário.
Segurança e Limpeza: Se o SkillPack de sushi estiver "sujo" (tiver informações privadas ou tóxicas), você só precisa jogar fora essa caixa específica. O resto da cozinha continua limpo.
Funciona com Modelos Diferentes: O método é tão flexível que consegue pegar habilidades de um chef japonês e ensinar para um chef italiano, mesmo que eles usem utensílios diferentes.

Resumo Final

O GraftLLM é como um sistema de modularidade para Inteligência Artificial. Ele permite que você pegue o conhecimento de modelos gigantes e complexos, transforme-os em pequenos "pacotes de habilidades" (SkillPacks) e os instale em modelos menores e mais rápidos, sem estragar o que eles já sabiam fazer.

É a diferença entre tentar fundir duas pessoas em um só (o que daria errado) e dar a uma pessoa um super-óculos que permite ver o mundo através dos olhos de outra, sem precisar mudar o rosto dela.

Each language version is independently generated for its own context, not a direct translation.

Título: GraftLLM: Fusão de Conhecimento de Grandes Modelos de Linguagem via SkillPacks Modulares

1. O Problema

A transferência de capacidades cruzadas (cross-capability transfer) entre Grandes Modelos de Linguagem (LLMs) heterogêneos é um desafio central na pesquisa atual, especialmente para integração de múltiplas tarefas, compressão de modelos e fusão de conhecimento.

Limitações das Abordagens Atuais:
- Mergers de Modelos Homogêneos: Métodos existentes (como Ties-Merging, Task Arithmetic) focam principalmente em modelos com a mesma arquitetura, limitando sua aplicabilidade a modelos heterogêneos.
- Distilação de Conhecimento (Full-Parameter): Frequentemente ignora as capacidades inerentes do modelo estudante, levando ao esquecimento catastrófico (catastrophic forgetting) e riscos de privacidade.
- PEFT (Fine-tuning Eficiente em Parâmetros): Métodos como LoRA muitas vezes lutam para absorver conhecimento suficiente de modelos fonte grandes e sofrem com conflitos de parâmetros ao tentar integrar múltiplas habilidades.
O Desafio: Como transferir habilidades de modelos fonte grandes e heterogêneos para um modelo alvo sem reescrever todos os parâmetros, sem causar esquecimento e mantendo a eficiência de armazenamento?

2. Metodologia: GraftLLM

O GraftLLM propõe uma abordagem baseada em "enxerto" (grafting) que encapsula as capacidades do modelo fonte em um formato modular e compacto chamado SkillPack.

Fluxo de Trabalho:

Aquisição de Conhecimento: O modelo alvo ( $\theta_{tgt}$ ) passa por um pipeline de duas etapas (SFT - Supervised Fine-Tuning seguido de DPO - Direct Preference Optimization) usando dados sintéticos ou de preferência derivados do modelo fonte ( $\theta_{src}$ ).
Cálculo de Delta: Os parâmetros atualizados ( $\theta^*_{tgt}$ ) são comparados com os originais para obter os deltas de parâmetros ( $\Delta\theta = \theta^*_{tgt} - \theta_{tgt}$ ), que contêm o conhecimento especializado.
Compressão Adaptativa Consciente de Módulo (Module-Aware Adaptive Compression):
Em vez de aplicar uma compressão uniforme, o GraftLLM analisa a sensibilidade de cada módulo da rede e aplica a estratégia ótima:
- Embedding e Cabeça de Saída (Output Head): Utiliza Poda por Magnitude (Magnitude Pruning), preservando os pesos com maior magnitude absoluta.
- Módulos de Atenção: Utiliza Decomposição em Valores Singulares (SVD) de baixo posto, aproveitando o espectro de valores singulares de decaimento rápido para reduzir a dimensionalidade sem perda significativa de capacidade representacional.
- Módulos MLP: Utiliza uma estratégia SVD conservadora que retém vetores singulares essenciais baseados em um limiar de energia cumulativa, evitando degradação em transformações não lineares fortes.
- Quantização Mista: Após a poda ou SVD, aplica-se quantização adaptativa (ex: 2-bit, 4-bit, 8-bit) baseada na importância dos componentes, reduzindo ainda mais o armazenamento.
Formação do SkillPack: O resultado dessa compressão é o SkillPack ( $\hat{\Delta\theta}$ ), uma representação compacta e transferível do conhecimento.
Mecanismo de Roteamento (Router): Para fusão de múltiplas habilidades, um roteador leve decide qual SkillPack ativar para uma dada entrada ou tarefa, permitindo a integração modular sem conflitos de parâmetros.

3. Principais Contribuições

Arquitetura SkillPack: Introdução de um formato modular que separa o conhecimento específico de tarefas do modelo base, permitindo fusão heterogênea e aprendizado contínuo sem esquecimento.
Estratégia de Compressão Adaptativa: Desenvolvimento de um método que combina poda, SVD e quantização de forma diferenciada por módulo, equilibrando alta taxa de compressão com retenção de desempenho.
Solução para Fusão Heterogênea: Capacidade de fundir modelos de arquiteturas e tamanhos diferentes (ex: Qwen-72B em LLaMA-8B) com eficiência superior aos métodos de merging tradicionais.
Aprendizado sem Esquecimento (Forget-Free): O método permite adicionar novas habilidades ao modelo base sem alterar seus parâmetros originais, facilitando o "desaprendizado" (unlearning) e a remoção de tóxicos simplesmente removendo o SkillPack correspondente.

4. Resultados Experimentais

Os autores realizaram extensas avaliações em três cenários principais:

Transferência de Capacidade (Pairwise Grafting):
- Ao transferir capacidades do Qwen-2.5-72B para o LLaMA-3.1-8B, o GraftLLM superou consistentemente métodos PEFT (LoRA) e técnicas de compressão simples (SVD, Poda), especialmente em cenários complexos de DPO, alcançando desempenho próximo ao de um modelo totalmente ajustado (full fine-tuning).
Fusão de Conhecimento (Knowledge Fusion):
- Fusão Explícita: No benchmark MT-Bench, o modelo fundido com GraftLLM (baseado em OpenChat-3.5-7B) superou todos os modelos fonte individuais e métodos de fusão existentes (como FuseLLM, Ties-Merging, Twin-Merging), com apenas um aumento de 28% no número de parâmetros.
- Fusão Implícita: Em 10 benchmarks (incluindo MMLU-Pro, GSM8K, HumanEval), o GraftLLM superou métodos de distillation multi-professor e fusão baseada em roteamento, demonstrando melhor equilíbrio entre tarefas conflitantes.
Aprendizado sem Esquecimento:
- Em tarefas sequenciais (Código seguido de Matemática), o GraftLLM mitigou o esquecimento catastrófico, superando Model Grafting e Model Tailor em 2,1% em média, mantendo o desempenho na tarefa original enquanto aprendia a nova.
Domínios Distintos:
- Em fusão de domínios altamente divergentes (Biomedicina, Finanças, Direito), o método alcançou 99% do desempenho de modelos treinados separadamente, utilizando apenas 30% de parâmetros adicionais, provando sua eficácia em isolar comportamentos conflitantes.

5. Significado e Impacto

O GraftLLM representa um avanço significativo na engenharia de modelos de linguagem ao resolver o dilema entre eficiência de armazenamento e capacidade de fusão de conhecimento.

Escalabilidade: Permite a criação de modelos "super-habilidosos" a partir de componentes modulares, facilitando a atualização contínua de modelos sem retreinamento massivo.
Segurança e Privacidade: A natureza modular permite a remoção fácil de habilidades indesejadas (ex: viés, dados sensíveis) sem afetar o núcleo do modelo.
Eficiência: Oferece uma alternativa viável à fusão de modelos heterogêneos, que antes era considerada difícil devido a conflitos de arquitetura e parâmetros, permitindo que modelos menores adquiram capacidades de modelos muito maiores de forma eficiente.

Em suma, o GraftLLM estabelece um novo paradigma para a integração de capacidades em LLMs, transformando o conhecimento em "peças de Lego" (SkillPacks) que podem ser combinadas, removidas e otimizadas dinamicamente.

Knowledge Fusion of Large Language Models Via Modular SkillPacks

O Problema: A "Colisão" de Habilidades

A Solução: O "Kit de Habilidades" (SkillPack)

Como Funciona a Mágica? (A Analogia do "Enxerto")

Por que isso é revolucionário?

Resumo Final

Título: GraftLLM: Fusão de Conhecimento de Grandes Modelos de Linguagem via SkillPacks Modulares

1. O Problema

2. Metodologia: GraftLLM

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá