NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas um pouco teimoso, a resolver problemas de matemática complexos. Até agora, a maneira padrão de fazer isso era como se fosse um professor rígido: você mostrava a resposta certa, e o aluno apenas repetia. Se ele errasse, você jogava o papel no lixo e dizia: "Não olhe para isso, vamos tentar de novo com a próxima questão". Isso é o que chamamos de Aprendizado Supervisionado (SL) tradicional. O problema? O aluno nunca aprende por que errou. Ele só memoriza o que está certo.

Por outro lado, existe o método de Aprendizado por Reforço (RL), que é como dar ao aluno um jogo de videogame. Ele tenta, erra, ganha pontos (ou perde), e ajusta sua estratégia sozinho. É ótimo para aprender com os erros, mas é caro, lento e difícil de configurar.

Este artigo, chamado NFT (que significa Negative-aware Fine-Tuning ou "Ajuste Fino Consciente do Negativo"), propõe uma ideia genial: e se pudéssemos ensinar o aluno a aprender com os erros dele, usando apenas o método simples de "copiar a resposta certa", sem precisar do jogo complexo?

Aqui está a explicação simplificada:

1. O Problema: Jogar o Erro no Lixo

No método antigo (chamado RFT), quando o modelo de IA gera uma resposta errada, nós simplesmente ignoramos. É como se um aluno escrevesse uma redação errada, e o professor rasgasse o papel e dissesse: "Vamos focar apenas nas redações perfeitas". O aluno nunca entende onde está a falha.

2. A Solução Mágica do NFT: O "Espelho do Erro"

O NFT faz algo diferente. Quando o modelo gera uma resposta errada, em vez de jogar fora, o NFT cria um "espelho".

Imagine que o modelo é um pintor.

O Pintor (Modelo Positivo): Pinta quadros lindos (respostas certas).
O Espelho (Modelo Negativo Implícito): O NFT diz: "Ok, você pintou um quadro feio aqui. Mas, em vez de jogar fora, vamos usar esse quadro feio para entender o que não fazer, ajustando a mesma mão que pinta os quadros bonitos."

Matematicamente, o NFT cria uma equação onde a resposta errada é vista como o "oposto" da resposta certa. Ao ensinar o modelo a evitar a resposta errada, ele automaticamente aprende a melhorar a resposta certa. É como se o aluno dissesse: "Ah, eu sei que não devo fazer X, então vou fazer Y".

3. A Grande Descoberta: Dois Caminhos, Mesmo Destino

Os autores descobriram algo surpreendente: quando o modelo está aprendendo "ao vivo" (gerando respostas na hora), o método simples deles (NFT) e o método complexo de jogos (RL, chamado GRPO) são matematicamente equivalentes.

Pense assim:

GRPO (RL): É como um treinador de atletismo gritando instruções, medindo cada passo e ajustando a corrida em tempo real.
NFT (SL): É como o atleta olhando para um espelho e ajustando a postura sozinho.

Surpreendentemente, se o atleta estiver olhando para o espelho no momento exato em que corre, o resultado final é o mesmo! O NFT consegue o mesmo poder de aprendizado do RL, mas de uma forma muito mais simples e eficiente.

4. Por que isso é importante?

Economia: Você não precisa de computadores superpotentes para rodar algoritmos complexos de RL. O NFT roda mais fácil.
Memória: O NFT precisa de menos memória, pois usa apenas uma cópia do modelo, enquanto o RL muitas vezes precisa de várias cópias para comparar.
Inteligência Real: Ao permitir que o modelo "pense" sobre seus erros (e não apenas memorize acertos), o modelo se torna mais inteligente e capaz de resolver problemas novos, não apenas repetir o que viu.

Resumo em uma Analogia Final

Imagine que você está aprendendo a cozinhar.

Método Antigo: Você só come os pratos que o chef faz perfeitamente. Se o prato queima, você joga fora e não aprende nada.
Método RL: Você tenta cozinhar, o chef grita "Queimou!", você tenta de novo, o chef grita "Salgado!", e você ajusta. Funciona, mas é estressante.
Método NFT: Você tenta cozinhar. Se o prato queima, você não joga fora. Você analisa o queimado e diz: "Ok, a próxima vez vou diminuir o fogo". Você usa o erro para ajustar a receita, mas sem precisar de um chef gritando o tempo todo. Você aprende a cozinhar sozinho, usando tanto os sucessos quanto os fracassos.

Conclusão: O NFT mostra que não precisamos necessariamente de algoritmos complexos de "Reforço" para ensinar IAs a raciocinar. Com a abordagem certa, o "Aprendizado Supervisionado" simples, quando bem aplicado, pode ser tão poderoso quanto os métodos mais avançados.

Each language version is independently generated for its own context, not a direct translation.

Título: NFT: Ponte entre Aprendizado Supervisionado e Aprendizado por Reforço no Raciocínio Matemático

1. Problema e Motivação

O recente avanço nas capacidades de raciocínio matemático de Grandes Modelos de Linguagem (LLMs) foi impulsionado principalmente pela mudança de paradigma de "imitação" (aprendizado supervisionado tradicional) para "autoaprimoramento" (baseado em verificação).

O Cenário Atual: O Aprendizado por Reforço (RL), utilizando algoritmos como PPO e GRPO, tornou-se o padrão para treinamento orientado a verificação. Esses métodos utilizam um verificador binário (certo/errado) para gerar sinais de recompensa, permitindo que o modelo aprenda com seus próprios erros sem necessidade de anotação humana cara.
A Limitação do Aprendizado Supervisionado (SL): Tradicionalmente, o SL é considerado inadequado para esse cenário porque depende de respostas de referência (positivas) e tende a descartar as respostas negativas (erros). A visão predominante é que o SL apenas memoriza dados positivos, enquanto o RL é necessário para refletir sobre falhas e melhorar autonomamente.
A Questão Central: É possível realizar treinamento orientado a verificação e autoaprimoramento puramente dentro do paradigma de Aprendizado Supervisionado, aproveitando dados negativos, sem recorrer à complexidade do RL?

2. Metodologia: Negative-aware Fine-Tuning (NFT)

Os autores propõem o NFT (Negative-aware Fine-Tuning), um algoritmo de aprendizado supervisionado online que permite aos LLMs aprenderem tanto com respostas corretas quanto com suas próprias gerações incorretas.

Princípio Fundamental

Diferente do Rejection Fine-Tuning (RFT), que descarta todas as respostas erradas, o NFT constrói uma política negativa implícita para modelar os dados negativos.

Relação Teórica: O modelo define a distribuição de respostas corretas ( $\pi^+$ ) e a distribuição de respostas incorretas ( $\pi^-$ ) como componentes da política de geração original ( $\pi_{old}$ ).
Equação Chave: Existe uma relação de acoplamento estrito entre as políticas:
$\pi_{old}(a|q) = r_q \cdot \pi^+(a|q) + (1 - r_q) \cdot \pi^-(a|q)$
Onde $r_q$ é a taxa de acerto estimada para a pergunta $q$ .
Otimização Implícita: Ao invés de descartar dados negativos, o NFT reparametriza a política negativa $\pi^-$ em termos da política positiva alvo $\pi^+_\theta$ . Isso permite otimizar diretamente a política positiva $\pi^+_\theta$ usando a função de perda de verossimilhança máxima (Maximum Likelihood) sobre os dados negativos.

Algoritmo e Prática

Coleta de Dados: O modelo gera $K$ respostas para cada pergunta. Um verificador binário classifica cada resposta como 1 (correta) ou 0 (incorreta).
Função de Perda: O NFT combina a otimização em dados positivos e negativos em uma única função de perda:
- Para dados positivos ( $r=1$ ): Minimiza a divergência em relação à distribuição correta.
- Para dados negativos ( $r=0$ ): Minimiza a probabilidade de gerar a resposta errada, ajustada pela taxa de acerto $r_q$ .
Estabilidade: O método inclui um mecanismo de clipping (limitação) na razão de verossimilhança negativa para evitar instabilidade numérica quando a probabilidade de erro aumenta, utilizando uma técnica de gradiente straight-through.
Eficiência: O NFT mantém apenas uma cópia do modelo em memória (o mesmo modelo é usado para gerar dados e para otimização), tornando-o mais eficiente em memória do que métodos de RL que exigem modelos de referência separados.

3. Contribuições Principais

Desafio ao Dogma RL vs. SL: Demonstra que o autoaprimoramento orientado a verificação não é exclusivo do RL. O NFT alcança resultados competitivos ou superiores usando apenas princípios de Aprendizado Supervisionado.
Equivalência Teórica (NFT vs. GRPO): Os autores provam que, sob condições estritas de treinamento on-policy (quando a política atual é igual à política de coleta de dados), o gradiente do NFT é matematicamente equivalente ao do GRPO (Group Relative Policy Optimization). Isso revela que a "normalização de vantagem" do GRPO é implicitamente refletida na função de perda do NFT.
Aproveitamento de Dados Negativos: Mostra que a principal razão pela qual o SL tradicional (como RFT) fica atrás do RL é a incapacidade de usar feedback negativo. O NFT preenche essa lacuna, permitindo que o modelo reflita sobre seus erros.
Eficiência e Simplicidade: Oferece uma alternativa ao RL complexa, eliminando a necessidade de hiperparâmetros de clipping de política complexos, modelos de recompensa separados ou estimativas de vantagem explícitas, mantendo a mesma eficiência de memória do ajuste fino supervisionado padrão.

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos Qwen2.5-Math-7B e Qwen2.5-32B em tarefas de raciocínio matemático (benchmarks como AIME, MATH500, OlympiadBench, Minerva Math).

Desempenho Comparativo:
- O NFT supera consistentemente o baseline de Rejection Fine-Tuning (RFT).
- O NFT iguala ou supera algoritmos de RL de última geração, como GRPO, Dr. GRPO e DAPO.
- No modelo de 7B, o NFT-7B-Zero alcança desempenho competitivo com outros modelos "zero-style" (treinados apenas com autoaprimoramento) sem anotação humana.
- No modelo de 32B, o NFT atinge uma acurácia média de 59.2%, superando o RFT (52.8%) e competindo de perto com o DAPO (59.9%).
Análise de Dinâmica de Treinamento:
- Enquanto o RFT tende a reduzir a entropia do modelo (exploração diminui), o NFT e os métodos de RL mantêm ou aumentam a entropia, indicando uma melhor capacidade de exploração.
- O ganho de desempenho do NFT sobre o RFT aumenta em modelos maiores (32B), sugerindo que a capacidade de refletir sobre erros torna-se um gargalo crítico à medida que o modelo já memoriza bem os dados positivos.
Ablação: O uso de ponderação de prompts (dar mais peso a perguntas difíceis com baixa taxa de acerto) e a escolha de um valor de clipping moderado ( $\epsilon = 1.0$ ) foram cruciais para o sucesso.

5. Significado e Conclusão

Este trabalho estabelece uma ponte teórica e prática entre o Aprendizado Supervisionado e o Aprendizado por Reforço em sistemas de aprendizado com feedback binário.

Unificação Teórica: A descoberta de que NFT e GRPO são equivalentes no regime on-policy sugere que a distinção entre SL e RL pode ser menos rígida do que se pensava quando se trata de otimização de políticas com verificação.
Impacto Prático: O NFT oferece um caminho mais simples e eficiente para treinar LLMs em tarefas de raciocínio complexo, eliminando a complexidade computacional e de engenharia associada ao RL (como a necessidade de modelos de valor, vantagens explícitas e múltiplas cópias de modelos), enquanto mantém a capacidade de autoaprimoramento.
Futuro: O trabalho sugere que o potencial de "inteligência geral" pode ser alcançado não apenas através de RL, mas através de uma supervisão inteligente que incorpora ativamente o aprendizado com falhas, democratizando o acesso a técnicas de autoaprimoramento de alto nível.

Em resumo, o NFT demonstra que, com a formulação correta, o Aprendizado Supervisionado pode ser tão poderoso quanto o RL para o autoaprimoramento em raciocínio matemático, desafiando a noção de que apenas o RL pode ensinar modelos a "pensar" e corrigir seus próprios erros.