A Layer-wise Analysis of Supervised Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de IA) que aprendeu a cozinhar milhões de pratos diferentes apenas observando a internet (Pré-treinamento). Ele sabe tudo sobre ingredientes, mas não sabe como servir um prato específico para um cliente exigente que pede "comida vegetariana, sem sal e em formato de receita".

Para ensinar esse chef a seguir essas instruções, fazemos um Treinamento Supervisionado (SFT). O problema é que, ao tentar ensinar essa nova regra, o chef às vezes esquece como cozinhar o prato original ou fica confuso.

Este artigo é como um raio-X que olha dentro da cabeça desse chef, camada por camada, para entender onde a mágica acontece e como ensinar de forma mais eficiente.

Aqui está a explicação simples, usando analogias:

1. O Problema: "Esquecimento Catastrófico"

Quando ensinamos o chef a seguir instruções, ele corre o risco de esquecer o que já sabia. Os pesquisadores queriam saber: onde no cérebro do chef essa mudança acontece? Será que ele muda tudo de uma vez? Ou apenas em algumas partes?

2. A Descoberta: O "Mapa do Tesouro" das Camadas

Os pesquisadores olharam para modelos de IA de vários tamanhos (do pequeno ao gigante) e descobriram um padrão curioso, como se o cérebro do modelo fosse dividido em três zonas:

A Zona de Entrada (Camadas Iniciais): É como a cozinha de armazenamento. Aqui, os ingredientes (informações brutas) são organizados. Essa parte é muito estável e não muda muito quando ensinamos novas regras. É onde o conhecimento geral fica guardado.
A Zona de Entrada (Camadas Finais): É como o prato final sendo servido. Aqui é onde a decisão de "como entregar o prato" é tomada. Essa parte é super sensível e muda drasticamente. É aqui que o modelo aprende a "falar como um assistente", mas também é onde ele mais corre o risco de esquecer o que era antes (o "esquecimento catastrófico").
A Zona Mágica (Camadas do Meio - 20% a 80%): Esta é a grande descoberta! É como a mesa de trabalho principal do chef. É aqui que a verdadeira adaptação acontece. É onde o chef pega o conhecimento antigo e o mistura com a nova instrução de forma segura.

A Analogia da Construção:
Pense no modelo como um prédio de 60 andares.

Os andares 1 a 10 são a fundação (não mexe).
Os andares 50 a 60 são o telhado e a fachada (mudam muito, mas são frágeis).
Os andares 10 a 50 são os apartamentos onde as pessoas realmente vivem e se adaptam. É aqui que a vida acontece.

3. A Solução: "Ajuste Eficiente do Bloco do Meio"

Antes, quando queríamos ensinar algo novo a um modelo, usávamos métodos como o LoRA (uma técnica de ajuste fino) que tentava mudar todos os andares do prédio ao mesmo tempo. Isso era caro, gastava muita energia e podia bagunçar a estrutura.

Os autores propuseram uma nova ideia: Por que não mudar apenas os andares do meio?

Eles criaram um método chamado "Mid-Block Efficient Tuning" (Ajuste Eficiente do Bloco do Meio). Em vez de mexer em tudo, eles focam apenas nas camadas intermediárias (entre 20% e 80% do modelo).

O Resultado:

Mais Inteligente: O modelo aprendeu a seguir instruções muito melhor (melhorou em até 10% em testes de matemática).
Mais Barato: Como mexeram em menos "andares", gastaram menos recursos de computador.
Mais Seguro: Ao não mexer nas camadas finais sensíveis, o modelo esqueceu menos o que já sabia.

4. Por que isso importa?

Imagine que você está tentando ensinar um aluno a fazer um novo tipo de exercício.

Método Antigo: Você grita com ele, mexe em tudo que ele sabe, e ele fica confuso e esquece o básico.
Método Novo: Você foca apenas na parte do cérebro dele que precisa de treino (a parte do meio), deixando a base sólida e o final (a resposta) intactos. O aluno aprende mais rápido e com menos esforço.

Resumo Final

O papel nos diz que nem todas as partes do cérebro de uma IA são iguais. Para ensinar uma IA a seguir instruções sem estragar o que ela já sabe, não precisamos mexer em tudo. Basta focar na "zona de ouro" do meio. É como consertar um carro: você não precisa trocar o motor inteiro nem a lataria; às vezes, basta ajustar o carburador (a parte do meio) para que o carro corra melhor.

Isso significa que o futuro de ensinar IAs será mais eficiente, mais barato e mais inteligente, focando exatamente onde a mudança precisa acontecer.

Each language version is independently generated for its own context, not a direct translation.

Título: Uma Análise Nível de Camada do Ajuste Fino Supervisionado (SFT)

1. Problema e Motivação

O Ajuste Fino Supervisionado (SFT) é fundamental para alinhar Grandes Modelos de Linguagem (LLMs) com a intenção humana, transformando modelos base em agentes capazes de seguir instruções com poucos exemplos. No entanto, o SFT carrega o risco de esquecimento catastrófico (perda de capacidades pré-treinadas).

Apesar do sucesso empírico, os mecanismos internos de como e onde essas mudanças ocorrem na arquitetura do modelo permanecem pouco compreendidos.

Hipótese Atual: Métodos eficientes de ajuste fino (PEFT), como o LoRA, aplicam atualizações uniformemente em todas as camadas, assumindo que todas contribuem igualmente para o alinhamento.
Lacuna: Não há clareza sobre quais camadas são essenciais para a adaptação de tarefas e quais são responsáveis pelo esquecimento catastrófico. A literatura anterior focou em onde o conhecimento está armazenado, mas não em onde a adaptação de tarefas ocorre durante o ajuste fino.

2. Metodologia

Os autores realizaram uma análise abrangente em modelos de 1B a 32B de parâmetros (famílias OLMo2 e Mistral), utilizando uma abordagem multimétrica para deconstruir a dinâmica evolutiva induzida pelo SFT:

Métricas de Informação: Entropia baseada em matrizes (para medir densidade de informação e compressão) e Rank Efetivo (para avaliar a dimensionalidade real do espaço de representação).
Métricas Geométricas:
- CKA (Centered Kernel Alignment): Para medir a similaridade estrutural global entre as representações do modelo Base e do SFT.
- Curvatura e Similaridade de Cosseno: Para analisar a suavidade dos caminhos de raciocínio e a reorientação direcional dos vetores.
- Deslocamento Médio (Mean Shift): Para quantificar a distância física entre os centróides das representações.
Dinâmica de Otimização: Rastreamento da magnitude das mudanças de pesos ( $\Delta W$ ) via distância de Frobenius para entender onde o esforço de adaptação é concentrado.
Experimentos de Validação:
- Probing Nível de Camada: Usar a saída de cada camada intermediária para prever o próximo token.
- Troca de Camadas (Layer Swapping): Substituir blocos de camadas do modelo Base por camadas do modelo SFT (e vice-versa) para testar causalidade.
- Ajuste Seletivo: Testar a eficácia de aplicar LoRA apenas em segmentos específicos de camadas.

3. Descobertas Principais (Padrão de Adaptação Dependente de Profundidade)

A análise revelou um padrão consistente e dependente da profundidade do modelo:

Camadas Iniciais (0-20%): Estáveis. As representações do modelo Base e SFT são altamente similares (alta similaridade de cosseno, baixo deslocamento médio). Atuam como extratores de características congelados.
Camadas Intermediárias (20%-80%): Zona de Estabilidade e Integração.
- Apresentam alta estabilidade geométrica e um "platô" de rank efetivo elevado.
- É onde o novo conhecimento se integra ao conhecimento pré-existente sem sobrescrevê-lo.
- O probing mostra que a capacidade de seguir instruções começa a emergir aqui, mas não atinge o pico.
Camadas Finais (80%-100%): Zona de Alta Sensibilidade e Plasticidade.
- Exibem uma queda abrupta na similaridade com o modelo Base (CKA cai drasticamente).
- Sofrem as maiores mudanças de pesos ( $\Delta W$ ) e uma compressão agressiva de características (bottleneck de informação).
- São o local primário do esquecimento catastrófico, onde novas informações sobrescrevem características pré-existentes para atender às restrições da tarefa final.

4. Contribuição Principal: Mid-Block Efficient Tuning

Baseado na descoberta de que a adaptação eficaz é localizada arquiteturalmente e não distribuída uniformemente, os autores propõem o Mid-Block Efficient Tuning.

Mecanismo: Em vez de aplicar LoRA em todas as camadas, o método atualiza seletivamente apenas as camadas intermediárias críticas (aproximadamente entre 20% e 80% da profundidade do modelo).
Objetivo: Maximizar a integração de novas instruções mantendo a estabilidade das camadas iniciais e evitando a reescrita excessiva nas camadas finais que causam esquecimento.

5. Resultados Experimentais

Os experimentos foram conduzidos em tarefas de raciocínio matemático (GSM8K) e compreensão geral (MMLU) em modelos OLMo2 (1B, 7B, 13B, 32B) e Mistral-7B.

Desempenho Superior: O Mid-Block Tuning superou o LoRA padrão (que atualiza todas as camadas) em até 10,2% de acurácia no GSM8K (ex: 37,5% vs 28% no OLMo2-7B).
Eficiência de Parâmetros: Alcançou melhores resultados com menos parâmetros treináveis, demonstrando que atualizar camadas sensíveis (topo) ou estáticas (base) é ineficiente.
Validação de Localização:
- Ajustar apenas as camadas inferiores ou superiores resultou em degradação de desempenho.
- A troca de camadas intermediárias entre modelos Base e SFT mostrou que essas camadas são as mais "transferíveis" e essenciais para a adaptação.
Generalização: O padrão de desempenho em forma de "U invertido" (melhor desempenho no meio, pior nas bordas) foi consistente em diferentes tamanhos de modelos e arquiteturas.

6. Significado e Conclusão

Revisão de Paradigma: O trabalho desafia a suposição de que o alinhamento é um processo distribuído uniformemente. Ele prova que o alinhamento é localizado: as camadas finais lidam com a plasticidade agressiva (e o risco de esquecimento), enquanto as camadas médias são o substrato estável para a consolidação da memória.
Implicações Práticas: Métodos de ajuste fino futuros devem priorizar a seleção de camadas baseada na profundidade, em vez de atualizações cegas. Isso permite criar estratégias de alinhamento mais eficientes que equilibram plasticidade e estabilidade.
Limitações: O estudo focou em arquiteturas decoder-only densas e na etapa de SFT isolada (antes de RLHF/DPO). A extensão para arquiteturas MoE (Mixture-of-Experts) e fases de otimização de preferência é sugerida como trabalho futuro.

Em resumo, o artigo fornece uma base mecânica sólida para entender onde o SFT ocorre no modelo e propõe uma técnica de ajuste fino mais eficiente e robusta, evitando o desperdício de recursos em camadas que não contribuem significativamente para a adaptação de tarefas.

A Layer-wise Analysis of Supervised Fine-Tuning

1. O Problema: "Esquecimento Catastrófico"

2. A Descoberta: O "Mapa do Tesouro" das Camadas

3. A Solução: "Ajuste Eficiente do Bloco do Meio"

4. Por que isso importa?

Resumo Final

Título: Uma Análise Nível de Camada do Ajuste Fino Supervisionado (SFT)

1. Problema e Motivação

2. Metodologia

3. Descobertas Principais (Padrão de Adaptação Dependente de Profundidade)

4. Contribuição Principal: Mid-Block Efficient Tuning

5. Resultados Experimentais

6. Significado e Conclusão

Mais como este

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

DBGL: Decay-aware Bipartite Graph Learning for Irregular Medical Time Series Classification