Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar uma criança superinteligente (um Modelo de Linguagem Grande, ou LLM) a se tornar um gênio em matemática e programação. O problema é que, até agora, os livros que usávamos para ensinar essa criança eram cheios de erros, páginas rasgadas, anotações confusas e até mesmo piadas sem graça.

O artigo "Reescrever Dados de Pré-treinamento Impulsiona o Desempenho de LLMs em Matemática e Código" conta a história de como um grupo de pesquisadores do Japão (do Instituto de Ciência de Tóquio e da AIST) decidiu não apenas escolher os melhores livros, mas reescrever os livros ruins para torná-los perfeitos.

Eles criaram dois novos "conjuntos de dados" (coleções de textos para treinar a IA) chamados SwallowCode (para código) e SwallowMath (para matemática).

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Caixa de Ferramentas" Suja

Antes, os cientistas pegavam dados da internet (como o The Stack para código ou o Finemath para matemática). Era como pegar uma caixa de ferramentas usada por milhares de pessoas:

Alguns parafusos estavam enferrujados (código com erros de sintaxe).
Algumas chaves eram do tamanho errado (estilo de programação bagunçado).
Havia instruções que faltavam ou eram confusas (problemas de matemática sem contexto).

A maioria dos pesquisadores tentava apenas peneirar essa caixa, jogando fora as ferramentas quebradas. Mas o que sobrava ainda era meio "sujo" e desorganizado.

2. A Solução: O "Restaurador de Antiquários"

Em vez de apenas jogar fora o que estava ruim, os autores criaram um processo de 4 etapas que age como um restaurador de antiguidades ou um professor particular exigente:

Para Código (SwallowCode):

Imagine que você tem um texto de código Python cheio de erros. O processo funciona assim:

Verificação de Sintaxe (O Chefe de Segurança): Eles usam um computador para garantir que o código não quebre o computador. Se o código não "compilar" (não funcionar), ele é descartado.
Filtro de Estilo (O Inspetor de Limpeza): Eles usam uma ferramenta chamada Pylint que funciona como um inspetor de trânsito. Se o código estiver muito bagunçado, com nomes de variáveis estranhos ou comentários inúteis, ele é rejeitado.
Reescrita Guiada por Estilo (O Professor de Etiqueta): Aqui entra a mágica. Uma IA muito inteligente (Llama-3.3) lê o código e o reescreve. Ela não muda o que o código faz, mas muda como ele é escrito. Ela dá nomes bonitos às variáveis, adiciona comentários explicativos e organiza o código para que qualquer humano possa entender. É como transformar um rabisco em um poema.
Otimização Autocontida (O Mecânico de Precisão): Às vezes, o código precisa de bibliotecas externas que não existem ou usa algoritmos lentos. A IA reescreve o código para que ele funcione sozinho (autocontido) e seja mais rápido. Ela transforma um exemplo bobo em uma lição valiosa.

O Resultado: Eles pegaram 16,1 bilhões de "pedaços" de código e os transformaram em um material de treinamento de altíssima qualidade.

Para Matemática (SwallowMath):

O processo é similar, mas focado em problemas matemáticos:

Eles limpam o "lixo" da internet (como rodapés de sites, datas de envio, anúncios).
Eles preenchem as lacunas: se uma pergunta de matemática está incompleta, a IA a completa.
Eles transformam respostas confusas em explicações passo a passo, como se um professor estivesse ensinando na lousa.

3. A Prova de Fogo: A Corrida de Carros

Para ver se funcionava, eles fizeram um teste:

Pegaram um carro de corrida padrão (o modelo Llama-3.1-8B).
Treinaram metade deles com os dados antigos (apenas filtrados, como Stack-Edu).
Treinaram a outra metade com os dados "reescritos" (SwallowCode e SwallowMath).

O Veredito:
Os carros treinados com os dados reescritos foram muito mais rápidos e precisos!

Em testes de código (HumanEval), a precisão saltou 17 pontos.
Em testes de matemática (GSM8K), a precisão subiu 12 pontos.

É como se você trocasse o combustível de um carro comum por um combustível de foguete. O motor é o mesmo, mas o que você coloca dentro faz toda a diferença.

4. Por que isso é importante?

A grande lição deste trabalho é: Não basta ter muitos dados; é preciso ter dados bons.

Muitas empresas tentam criar dados do zero (dados sintéticos), mas isso é como tentar inventar a roda de novo e pode resultar em dados repetitivos e sem criatividade. Os autores preferiram pegar dados reais da internet e poli-los.

Eles chamam essa abordagem de "Transformar e Manter" (Transform-and-Retain). Em vez de jogar fora o que é "ruim", eles o transformam em algo "ótimo".

Resumo Final

Os pesquisadores criaram dois novos livros didáticos (SwallowCode e SwallowMath) reescrevendo dados públicos. Eles agiram como professores que pegam um caderno cheio de erros, limpam a sujeira, organizam as ideias e reescrevem as lições para que fiquem claras e perfeitas.

O resultado? Modelos de IA que aprendem muito mais rápido e resolvem problemas de matemática e programação com muito mais inteligência, tudo isso usando a mesma quantidade de tempo e energia de treinamento. É uma vitória da qualidade sobre a quantidade.

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. O Problema: A "Caixa de Ferramentas" Suja

2. A Solução: O "Restaurador de Antiquários"

Para Código (SwallowCode):

Para Matemática (SwallowMath):

3. A Prova de Fogo: A Corrida de Carros

4. Por que isso é importante?

Resumo Final

Título: Reescrever Dados de Pré-Treinamento Impulsiona o Desempenho de LLMs em Matemática e Código

1. O Problema

2. Metodologia: A Abordagem "Transform-and-Retain"

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. O Problema: A "Caixa de Ferramentas" Suja

2. A Solução: O "Restaurador de Antiquários"

Para Código (SwallowCode):

Para Matemática (SwallowMath):

3. A Prova de Fogo: A Corrida de Carros

4. Por que isso é importante?

Resumo Final

Título: Reescrever Dados de Pré-Treinamento Impulsiona o Desempenho de LLMs em Matemática e Código

1. O Problema

2. Metodologia: A Abordagem "Transform-and-Retain"

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Mais como este

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models