Grow, Don't Overwrite: Fine-tuning Without Forgetting

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso que aprendeu a cozinhar tudo: desde um bolo perfeito até um jantar sofisticado. Esse chef é o seu "modelo de inteligência artificial pré-treinado".

Agora, imagine que você quer ensinar esse mesmo chef a fazer sushi (uma nova tarefa). O problema clássico, chamado de "esquecimento catastrófico", é que, ao tentar aprender a fazer sushi, o chef começa a esquecer como fazer o bolo. Ele tenta adaptar os mesmos ingredientes e ferramentas, e no final, o bolo fica estragado e o sushi também não sai bem.

A maioria dos métodos atuais tenta consertar isso de duas formas ruins:

Regularização: É como colocar uma corrente no chef para impedir que ele mexa muito nos ingredientes do bolo. O resultado? Ele faz um sushi medíocre porque está com medo de estragar o bolo.
Adicionar novos aprendizes: Você contrata um novo chef para fazer o sushi, mas deixa o original parado. Isso funciona, mas é caro e ineficiente, pois o novo chef começa do zero, sem usar o conhecimento do chef experiente.

A Solução: "Crescer, não Escrever por Cima"

Os autores deste paper propuseram uma ideia genial: em vez de tentar reescrever a memória do chef ou contratar alguém de fora, vamos apenas "crescer" o cérebro dele de forma inteligente.

Eles criaram um método chamado Expansão Preservadora de Função. Aqui está como funciona, usando uma analogia simples:

1. A Técnica do "Espelho Mágico"

O cérebro do modelo (chamado de Transformer) tem partes específicas onde a "mágica" acontece (os submódulos MLP).

O Truque: Eles pegam uma parte do cérebro do chef e copiam exatamente o que ele já sabe. Imagine que o chef tem um bloco de notas com a receita do bolo. Eles fazem uma fotocópia perfeita desse bloco e colam ao lado do original.
O Ajuste: Se você apenas duplicar o bloco, a receita fica duplicada e o bolo sai com o dobro de ingredientes (o que estragaria tudo). Para evitar isso, eles aplicam um "filtro de escala". Eles dizem: "Ok, temos duas receitas agora, então vamos dividir a quantidade de ingredientes de cada uma pela metade".
O Resultado: No final, a comida sai exatamente igual à de antes. O modelo não mudou nada no início. Ele é matematicamente idêntico ao original.

2. O Aprendizado Seguro

Agora que o cérebro é maior (tem duas cópias do bloco de notas), eles deixam o bloco original congelado (ninguém pode mexer nele). Eles só deixam o novo bloco livre para ser treinado.

O chef usa o bloco novo para aprender a fazer sushi.
Como o bloco do bolo está congelado e intacto, ele nunca esquece como fazer bolo.
Ao mesmo tempo, o bloco novo aprende o sushi tão bem quanto se o chef tivesse estudado apenas sushi desde o início.

Por que isso é incrível?

Sem Esquecimento: O chef continua sendo um mestre em bolo, mesmo depois de aprender sushi. O desempenho nas tarefas antigas não cai nem um pouco.
Eficiência: Você não precisa treinar o cérebro todo de novo. Como só treina a parte nova (que é uma cópia), você usa menos de 60% dos parâmetros do modelo original. É como se você precisasse treinar apenas metade da equipe para ter o mesmo resultado.
Flexibilidade: Você não precisa crescer todo o cérebro. Se a tarefa for simples (como traduzir uma frase), crescer apenas algumas "partes" do cérebro já é suficiente. Se a tarefa for difícil (como matemática complexa), você cresce mais partes. É como escolher quantos novos ajudantes contratar dependendo do tamanho da festa.

Resumo da Ópera

A ideia central é: Não apague o passado para fazer espaço para o futuro. Em vez disso, adicione um novo espaço que comece com o mesmo conhecimento do passado, mas que seja livre para aprender coisas novas.

É como se você tivesse um livro de receitas infalível. Em vez de riscar as receitas antigas para escrever as novas, você cola uma página em branco ao lado, mas com um "espelho" que garante que, se você olhar de longe, o livro parece exatamente o mesmo. Assim, você pode escrever novas receitas sem nunca perder as antigas.

Em termos técnicos (mas simples):
O método duplica as camadas internas do modelo e divide os pesos correspondentes por dois. Isso garante que, no momento zero, o modelo se comporte exatamente como antes. Depois, apenas as novas cópias são treinadas, permitindo que o modelo aprenda novas habilidades sem "escrever por cima" (overwrite) do conhecimento fundamental.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Esquecimento Catastrófico e o Dilema da Capacidade

O artigo aborda um dos desafios mais críticos na adaptação de Grandes Modelos de Linguagem (LLMs) pré-treinados: o esquecimento catastrófico. Quando um modelo é ajustado (fine-tuned) para uma tarefa especializada (como raciocínio médico ou tradução), o processo de otimização padrão sobrescreve os parâmetros originais, alterando abruptamente as representações internas e apagando conhecimentos fundamentais adquiridos durante o pré-treinamento.

Existem duas abordagens tradicionais que falham em resolver este problema de forma equilibrada:

Regularização: Tenta impedir que os parâmetros se desviem muito do estado original. No entanto, isso cria um compromisso de "soma zero": recursos dedicados a lembrar o passado são retirados da capacidade de aprender o futuro, limitando o desempenho em ambas as frentes.
Crescimento de Capacidade (Network Growing): Adiciona novos parâmetros para novas tarefas enquanto congela o modelo original. O problema aqui é a estabilidade funcional: se os novos parâmetros forem inicializados aleatoriamente (ex: módulos identidade), o modelo perde a eficiência de aproveitar o conhecimento pré-treinado. Se reutilizar pesos pré-treinados sem cuidado, viola-se a garantia de que o modelo se comporta exatamente como o original no início do treinamento.

O objetivo do trabalho é preencher essa lacuna: criar um método que expanda a capacidade do modelo utilizando conhecimento pré-treinado, garantindo que a função do modelo permaneça inalterada no momento da inicialização.

2. Metodologia: Expansão Funcionalmente Preservadora

A técnica proposta, chamada de Expansão Funcionalmente Preservadora, foca nos submódulos MLP (Perceptron Multicamada) dentro da arquitetura Transformer. O método garante que o modelo expandido seja matematicamente idêntico ao original no início, permitindo um treinamento estável.

O Processo de Expansão (Passo a Passo)

Para cada camada $n$ do Transformer, o método executa duas operações principais para duplicar a dimensão oculta interna ( $p$ ):

Expansão da Camada de Up-Projection ( $W^{(1)}$ ):
A matriz de pesos que mapeia a entrada para o estado oculto intermediário é duplicada. Em vez de uma matriz $W^{(1)}_{n} \in \mathbb{R}^{h \times p}$ , cria-se uma nova matriz $\hat{W}^{(1)}_{n} \in \mathbb{R}^{h \times 2p}$ concatenando horizontalmente a matriz original consigo mesma:
$\hat{W}^{(1)}_{n} = [W^{(1)}_{n} \quad W^{(1)}_{n}]$
Compensação na Camada de Down-Projection ( $W^{(2)}$ ):
Para garantir que a saída final do MLP permaneça inalterada, a matriz de pesos que projeta o estado intermediário de volta para a dimensão do modelo é ajustada. A nova matriz $\hat{W}^{(2)}_{n} \in \mathbb{R}^{2p \times h}$ é formada concatenando verticalmente a matriz original, mas escalonada por um fator de 1/2:
$\hat{W}^{(2)}_{n} = \begin{bmatrix} \frac{1}{2}W^{(2)}_{n} \\ \frac{1}{2}W^{(2)}_{n} \end{bmatrix}$

Prova de Preservação Funcional:
Se a saída da camada de up-projection for $Y = \text{ReLU}(X W^{(1)}_n)$ , a saída expandida da up-projection será $[Y, Y]$ . A saída final do MLP expandido torna-se:
$[Y, Y] \begin{bmatrix} \frac{1}{2}W^{(2)}_n \\ \frac{1}{2}W^{(2)}_n \end{bmatrix} = \frac{1}{2}Y W^{(2)}_n + \frac{1}{2}Y W^{(2)}_n = Y W^{(2)}_n$
O resultado é idêntico à saída do modelo original, garantindo que o comportamento inicial não seja alterado.

Estratégias de Ajuste Fino (Fine-tuning)

O artigo propõe duas variantes para o treinamento dos novos parâmetros:

G-Freeze (Padrão): Congela todos os parâmetros originais e treina apenas os novos pesos adicionados (tanto na up quanto na down-projection). Isso garante a máxima estabilidade e preservação de conhecimento.
G-Train: Congela a down-projection (onde o conhecimento factual reside, segundo a literatura) e treina toda a matriz expandida de up-projection. Esta variante é usada para tarefas cognitivamente complexas (como raciocínio matemático) que exigem mais plasticidade.

3. Contribuições Principais

Método de Crescimento Preservador de Função: Uma técnica inovadora que reutiliza pesos pré-treinados para expandir a capacidade do modelo, garantindo identidade matemática com o modelo original no início.
Eliminação do Compromisso Plasticidade-Estabilidade: O método consegue aprender novas habilidades com desempenho equivalente ao fine-tuning completo, sem degradar as capacidades originais do modelo (esquecimento catastrófico eliminado).
Eficiência Modular: Demonstra que expandir apenas um subconjunto alvo de camadas (ex: 10 camadas em vez de todas) é suficiente para atingir o desempenho de expansão total, reduzindo drasticamente o custo computacional.
Economia de Parâmetros: Mesmo expandindo todas as camadas, o método treina apenas cerca de 60% dos parâmetros originais (devido ao congelamento de parte da estrutura), comparado aos 100% do fine-tuning padrão.

4. Resultados Experimentais

Os experimentos foram realizados no modelo Gemma-1B (e validados no Gemma-4B) em diversas tarefas: tradução (inglês-francês), implicação textual (SciTail), Q&A científica (QASC) e raciocínio matemático (MathQA).

Eliminação do Esquecimento: Enquanto o fine-tuning padrão (SFT) sofreu uma queda drástica de desempenho nas tarefas originais (quase zero em tarefas com grande deslocamento de domínio), o método proposto manteve o desempenho original intacto, ao mesmo tempo que igualou ou superou o SFT nas novas tarefas.
Eficiência de Parâmetros: Expandir apenas 9-10 camadas selecionadas (baseado na magnitude das atualizações de pesos) produziu resultados idênticos à expansão de todas as camadas, reduzindo os parâmetros treináveis de ~60% para ~30% do modelo total.
Escalabilidade: O desempenho em novas tarefas escala positivamente com o número de camadas expandidas. Tarefas complexas (como MathQA) beneficiam-se de mais camadas expandidas.
Estabilidade de Representação: Usando Vetores de Função (Function Vectors - FV), os autores mostraram que o método preserva as representações latentes originais.
- Similaridade de Cosine FV: O método proposto manteve 0.95 de similaridade com o modelo original, enquanto o SFT caiu para 0.28.
- Cabeças de Atenção Causais: O método preservou 5 das 10 cabeças de atenção originais mais importantes, contra apenas 2-3 no SFT.

5. Significado e Impacto

Este trabalho oferece uma solução elegante para o dilema fundamental do aprendizado contínuo em LLMs. Ao invés de tentar "congelar" o modelo ou "reaprender" do zero, a abordagem de crescer a rede de forma matematicamente compensada permite:

Adaptação Segura: Modelos podem ser especializados em domínios críticos (medicina, direito, ciência) sem perder sua competência geral (raciocínio básico, linguagem natural).
Eficiência Computacional: A capacidade de treinar apenas subconjuntos de camadas ou apenas novos parâmetros torna o ajuste fino de modelos grandes mais viável economicamente.
Novo Paradigma de Arquitetura: Sugere que a expansão de capacidade, quando feita corretamente (preservando a função), é superior à regularização ou ao replay de dados para evitar o esquecimento.

Em resumo, o artigo demonstra que é possível ter o melhor dos dois mundos: a estabilidade de um modelo pré-treinado e a plasticidade necessária para aprender novas tarefas complexas, sem o custo de esquecer o que já foi aprendido.

Grow, Don't Overwrite: Fine-tuning Without Forgetting

A Solução: "Crescer, não Escrever por Cima"

1. A Técnica do "Espelho Mágico"

2. O Aprendizado Seguro

Por que isso é incrível?

Resumo da Ópera

1. O Problema: Esquecimento Catastrófico e o Dilema da Capacidade

2. Metodologia: Expansão Funcionalmente Preservadora

O Processo de Expansão (Passo a Passo)

Estratégias de Ajuste Fino (Fine-tuning)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions