Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

O artigo apresenta o Scaf-GRPO, um novo framework de treinamento que supera o fenômeno do "learning cliff" em modelos de linguagem grandes ao fornecer orientações progressivas e mínimas apenas quando o aprendizado estagna, resultando em melhorias significativas no raciocínio matemático complexo.

Xichen Zhang, Sitong Wu, Yinghao Zhu, Haoru Tan, Shaozuo Yu, Ziyi He, Jiaya Jia

Publicado 2026-03-03
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando uma criança a resolver um problema de matemática muito difícil, como um quebra-cabeça complexo.

O Problema: O "Abismo do Aprendizado"
Normalmente, quando usamos Inteligência Artificial (IA) para aprender a resolver problemas, nós deixamos ela tentar sozinha. Se ela errar, não ganha pontos. Se acertar, ganha pontos.
O problema é que, quando a IA encontra um problema muito difícil (acima do que ela consegue entender no momento), ela erra toda vez. Como ela nunca acerta, ela nunca ganha pontos.
Isso cria um "abismo": a IA fica parada, sem saber o que fazer, porque o sinal de aprendizado (os pontos) desaparece completamente. Ela fica "cega" para esses problemas difíceis e para de evoluir. Os pesquisadores chamam isso de "Learning Cliff" (Abismo do Aprendizado).

A Solução: O "Andaime" (Scaf-GRPO)
Os autores deste paper criaram um método chamado Scaf-GRPO. A ideia vem de uma técnica de ensino chamada "Andaime" (Scaffolding), usada na educação.

Pense em um andaime de construção:

  1. Sem ajuda: Se a criança tentar sozinha e falhar, ela desiste.
  2. Ajuda total (o jeito antigo): Alguns métodos antigos pegam a resposta completa e dizem: "Aqui está a solução, só copie o resto". O problema é que a criança não aprende a pensar, ela apenas copia. Ela fica dependente e não desenvolve a própria inteligência.
  3. O jeito Scaf-GRPO (Andaime Inteligente): O método deles é como um professor muito esperto que só ajuda quando é estritamente necessário e dá a ajuda mínima possível.

Como funciona na prática?

  1. Deixe tentar sozinho primeiro: A IA tenta resolver o problema sozinha. Se ela conseguir, ótimo! Ela aprende sozinha.
  2. Detectar o "Abismo": Se a IA errar todas as vezes, o sistema percebe: "Ok, esse problema é muito difícil para ela agora. Vamos intervir".
  3. Dicas em Camadas (Escada de Ajuda): Em vez de dar a resposta, o sistema oferece dicas em uma escada, do mais abstrato para o mais concreto:
    • Degrau 1 (Conceito): "Lembre-se daquela fórmula de média que usamos antes?" (Uma dica vaga).
    • Degrau 2 (Planejamento): "Tente dividir o problema em duas partes menores." (Uma dica estratégica).
    • Degrau 3 (Passo a passo): "Faça a conta X primeiro, depois Y." (Uma dica concreta).
  4. A Regra de Ouro: O sistema começa pela dica mais vaga. Se a IA conseguir resolver com essa dica, ela ganha pontos. Se não, ele dá a próxima dica um pouco mais forte. O objetivo é fazer a IA resolver o problema com o mínimo de ajuda possível.

Por que isso é genial?

  • Não é "cola": A IA não está apenas copiando a resposta. Ela está aprendendo a pensar com a ajuda da dica.
  • Aprendizado Real: Ao conseguir resolver um problema difícil com uma pequena dica, a IA internaliza a habilidade. Da próxima vez, ela pode tentar sozinha.
  • Quebrando o Abismo: O que antes era um problema impossível (onde a IA aprendia zero), agora vira uma oportunidade de aprendizado. A IA sobe a escada e chega ao topo.

O Resultado:
Os testes mostraram que, usando esse método, a IA ficou muito melhor em matemática. Em testes difíceis de olimpíadas, ela melhorou em 44% comparada aos métodos antigos que deixavam a IA errar sozinha.

Resumo em uma frase:
O Scaf-GRPO é como um professor que não deixa o aluno se afogar em problemas difíceis, mas também não faz a lição por ele; ele apenas coloca a mão no ombro e dá a dica exata para o aluno conseguir pular a cerca sozinho.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →