On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente (o Modelo de Linguagem) a resolver problemas complexos, como matemática avançada ou escrever código.

Até hoje, existiam duas formas principais de ensinar esse aluno:

SFT (Ajuste Supervisionado): Você mostra ao aluno o "caderno de respostas" perfeito. Ele copia a resposta certa. É rápido e fácil, mas o aluno tende a apenas memorizar a resposta, sem entender realmente a lógica. Se a pergunta mudar um pouquinho, ele trava.
RL (Aprendizado por Reforço): Você deixa o aluno tentar resolver o problema sozinho. Se ele acertar, ganha um ponto (recompensa). Se errar, perde. Com o tempo, ele aprende a estratégia geral. Ele generaliza muito bem, mas esse processo é lento, gasta muita energia e é difícil de controlar (é como tentar ensinar alguém a andar de bicicleta apenas dizendo "não caia").

O problema é que o método rápido (SFT) não funciona bem em situações novas, e o método inteligente (RL) é muito caro e difícil de usar.

A Descoberta: O "Gravador de Voz" Quebrado

Os autores deste papel descobriram algo curioso sobre o método rápido (SFT). Eles analisaram a matemática por trás dele e viram que, ao tentar copiar a resposta perfeita, o algoritmo estava, sem querer, criando um sistema de recompensa distorcido.

A Analogia do Professor Exigente:
Imagine que o algoritmo SFT é um professor que grita muito mais alto com o aluno quando ele está prestes a errar.

Se o aluno diz algo que o professor acha "muito provável" (fácil), o professor diz: "Ok, continue assim" (pouco trabalho).
Se o aluno diz algo que o professor acha "improvável" (difícil), mas que está no livro de respostas, o professor entra em pânico e grita: "ISSO É O QUE TEM QUE SER! MUDAR TUDO AGORA!".

Esse "grito" (o gradiente) é tão forte e desproporcional que o aluno fica confuso. Ele tenta desesperadamente memorizar aquelas palavras específicas, em vez de aprender a lógica. É por isso que ele não generaliza: ele está apenas tentando não ser "chutado" pelo professor.

A Solução: O "Ajuste Dinâmico" (DFT)

Os autores propuseram uma solução simples, quase mágica: Dynamic Fine-Tuning (DFT).

Eles mudaram apenas uma linha de código no algoritmo. Em vez de deixar o professor gritar descontroladamente quando o aluno acerta algo difícil, eles disseram:
"Espera aí. Se o aluno acertou algo que parecia difícil, vamos dar a recompensa de forma calma e uniforme, sem gritar."

A Metáfora do Sintonizador de Rádio:
Pense no SFT antigo como um rádio que aumenta o volume ao máximo quando a estação está fraca, distorcendo o som. O novo método (DFT) é como um sintonizador inteligente que ajusta o volume automaticamente para que a música soe clara, não importa se a estação está forte ou fraca.

Eles "nivelaram" a recompensa. Agora, acertar uma palavra difícil vale o mesmo que acertar uma fácil. Isso permite que o modelo aprenda a lógica por trás da resposta, e não apenas a memorize.

O Resultado: O Aluno que Aprende de Verdade

Com essa pequena mudança, o modelo se comportou de forma surpreendente:

Matemática e Lógica: Em testes de matemática olímpica (problemas muito difíceis), onde o método antigo (SFT) fazia o modelo ficar pior do que antes, o novo método (DFT) fez o modelo melhorar drasticamente.
Código e Multimídia: Funcionou também para escrever programas de computador e entender imagens com texto.
Velocidade: O modelo aprendeu mais rápido e parou de "travar" em problemas novos.
Economia: Eles conseguiram resultados melhores do que métodos complexos de "Aprendizado por Reforço", mas sem precisar de computadores gigantes ou meses de treinamento.

Quando NÃO usar?

Os autores foram honestos: essa técnica é ótima para raciocínio (matemática, lógica, código). Mas, se você quer ensinar o modelo fatos (como "quem foi o primeiro presidente do Brasil?"), o método antigo (SFT) ainda é melhor. É como ensinar a andar de bicicleta (raciocínio) vs. decorar uma lista de telefones (fatos). Para a lista, você só precisa de repetição, não de entender a lógica da bicicleta.

Resumo em uma frase

Os autores pegaram o método de ensino mais comum e rápido (SFT), descobriram que ele estava "gritando" demais com o aluno em momentos errados, ajustaram o volume para ser mais justo e, com apenas uma linha de código, transformaram um aluno que apenas memorizava em um gênio que realmente entende e generaliza o conhecimento.

Each language version is independently generated for its own context, not a direct translation.

Título: Sobre a Generalização do SFT: Uma Perspectiva de Aprendizado por Reforço com Retificação de Recompensa

Autores: Yongliang Wu, Yizhou Zhou, et al. (Southeast University, UCLA, Berkeley, etc.)

1. O Problema

O Fine-Tuning Supervisionado (SFT) é o paradigma padrão para adaptar Grandes Modelos de Linguagem (LLMs) a demonstrações de especialistas. Embora eficiente e fácil de implementar, o SFT apresenta uma limitação crítica na generalização quando comparado ao Aprendizado por Reforço (RL).

Memorização vs. Generalização: O SFT tende a "memorizar" os dados de treinamento, enquanto o RL, ao utilizar sinais de recompensa explícitos, explora estratégias diversas e generaliza melhor para tarefas não vistas.
Custo do RL: O RL requer modelos de recompensa, ajuste cuidadoso de hiperparâmetros e grande poder computacional, tornando-o impraticável em muitos cenários do mundo real.
A Lacuna: Não existem métodos fundamentais que melhorem o SFT nativamente (sem dados negativos ou recompensas externas) para superar sua instabilidade e falta de generalização.

2. Análise Teórica e Motivação

Os autores realizam uma análise matemática rigorosa para conectar o gradiente do SFT ao gradiente de política do RL.

Interpretação do Gradiente SFT: Eles demonstram que o gradiente do SFT pode ser reescrito como um gradiente de política com uma recompensa implicitamente definida.
O Problema da Recompensa Implícita: Sob essa ótica, a recompensa no SFT é:
1. Esparsa: Apenas igual a 1 para a resposta exata do especialista e 0 para tudo o mais.
2. Inversamente Proporcional à Probabilidade: O gradiente é ponderado por $1/\pi_\theta(y|x)$ .
Consequência: Quando o modelo atribui uma probabilidade baixa a uma ação correta do especialista (o que é comum no início do treinamento ou em tokens difíceis), o peso $1/\pi$ torna-se excessivamente grande. Isso cria uma paisagem de recompensa mal-posta, levando a gradientes instáveis e a uma otimização que favorece o overfitting em vez da generalização.

3. Metodologia: Dynamic Fine-Tuning (DFT)

Para corrigir essa distorção, os autores propõem o Dynamic Fine-Tuning (DFT), uma solução simples que requer apenas uma linha de código de alteração na função de perda.

Mecanismo de Retificação: O DFT reescala dinamicamente o objetivo do SFT multiplicando a perda pela probabilidade do token atual.
- A perda original do SFT é: $L = -\log \pi_\theta(y^*|x)$ .
- A perda DFT é: $L_{DFT} = -\text{sg}(\pi_\theta(y^*|x)) \cdot \log \pi_\theta(y^*|x)$ .
- Onde $\text{sg}(\cdot)$ é o operador de stop-gradient (impede que o gradiente flua através do termo de ponderação).
Efeito Teórico: Ao multiplicar por $\pi_\theta$ $π_{θ}$ , o termo de ponderação inversa ( $1/\pi$ $1/ π$ ) é cancelado.
- Isso transforma o gradiente de um estimador enviesado e instável em uma atualização mais estável e uniformemente ponderada.
- No contexto de RL, isso equivale a atribuir uma recompensa uniforme (1) para todas as trajetórias de especialistas, eliminando a penalidade excessiva para tokens de baixa probabilidade.
Implementação: A implementação final opera no nível do token para garantir estabilidade numérica, somando a perda ponderada sobre a sequência.

4. Resultados Experimentais

Os autores avaliaram o DFT em diversas configurações, modelos e tarefas:

A. Raciocínio Matemático (Tarefa Principal)

Benchmarks: Math500, Minerva Math, Olympiad Bench, AIME 2024, AMC 2023.
Modelos: Qwen2.5-Math (1.5B, 7B), LLaMA-3 (3B, 8B), DeepSeekMath-7B.
Desempenho: O DFT superou consistentemente o SFT padrão.
- No Qwen2.5-Math-1.5B, o DFT obteve um ganho médio de +15.66 pontos sobre o modelo base, enquanto o SFT padrão obteve apenas +2.09 (ganho ~5.9x maior).
- Em benchmarks difíceis (ex: Olympiad Bench), onde o SFT padrão frequentemente degradou o desempenho, o DFT melhorou significativamente a generalização.
Eficiência: O DFT convergiu mais rápido, atingindo o pico de desempenho em menos de 120 passos de treinamento em muitos casos.

B. Aprendizado por Reforço Offline

O DFT foi testado em cenários de RL offline (com recompensas densas derivadas de verificação).
Comparação: Superou métodos offline como DPO e RFT, e até mesmo métodos online como PPO e GRPO em certas configurações de tamanho de conjunto de dados.
Vantagem: Não requer modelo de referência (reference model) nem grandes lotes (batch sizes), sendo mais eficiente em recursos.

C. Geração de Código e Multimodalidade

Código: Em benchmarks como HumanEval e MultiPL-E, o DFT melhorou o desempenho de modelos Qwen2.5-Coder em comparação ao SFT.
Multimodal: Em tarefas de raciocínio visual-matemático (MathVerse, MathVision), o DFT também demonstrou ganhos consistentes sobre o SFT.

D. Limitações Identificadas

Conhecimento Factual: Em tarefas que exigem a absorção de novos fatos (ex: Natural Questions), o SFT padrão ainda é superior. O DFT, ao reponderar com base na confiança do modelo, pode reforçar crenças existentes e dificultar o aprendizado de fatos novos se o modelo não tiver conhecimento prévio suficiente.

5. Contribuições Chave

Insight Teórico: Estabeleceu matematicamente que o SFT é um caso especial de gradiente de política com uma recompensa mal-posta (inversamente proporcional à confiança), explicando a instabilidade e a falta de generalização.
Método Simples e Eficaz: Propôs o DFT, uma modificação de "uma linha" que retifica a função de perda, eliminando a necessidade de modelos de recompensa ou dados negativos.
Desempenho Superior: Demonstrou empiricamente que o DFT supera o SFT em generalização, estabilidade e eficiência de aprendizado em tarefas complexas de raciocínio.
Ponte entre SFT e RL: Oferece uma alternativa leve e escalável ao RL tradicional, alcançando resultados competitivos em cenários offline sem a complexidade computacional do RL online.

6. Significado e Impacto

Este trabalho desafia a noção de que o SFT é inerentemente inferior ao RL em termos de generalização, apontando que a falha reside na formulação do gradiente e não no paradigma de supervisionamento em si. Ao corrigir a distorção de ponderação, o DFT permite que o SFT alcance capacidades de generalização próximas às do RL, mas com a simplicidade e eficiência computacional do treinamento supervisionado. Isso é crucial para aplicações onde dados de recompensa ou pares de preferência não estão disponíveis, oferecendo uma nova direção para o fine-tuning de LLMs.