Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

O artigo apresenta o framework Code2Math, que utiliza agentes de código para evoluir autonomamente problemas matemáticos existentes em variações mais complexas e solucionáveis, abordando a escassez de desafios de alta qualidade para o treinamento e avaliação de modelos de linguagem.

Dadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de matemática muito exigente. Você quer treinar seus alunos (que são, na verdade, supercomputadores chamados "Inteligências Artificiais") para resolver problemas de nível olímpico. O problema é: os livros didáticos estão ficando sem exercícios difíceis o suficiente. Criar novos problemas manualmente é lento, chato e exige gênios humanos.

Aí, os autores deste artigo tiveram uma ideia brilhante: "E se a própria IA pudesse criar os próximos exercícios mais difíceis?"

Eles chamaram esse projeto de Code2Math. Aqui está a explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Grande Desafio: A Escassez de "Desafios"

Até hoje, as IAs ficaram muito boas em matemática, quase como um medalhista olímpico. Mas para elas evoluírem ainda mais, elas precisam de problemas que elas mesmas não consigam resolver facilmente. Criar esses problemas manualmente é como tentar escrever um livro de quebra-cabeças novo todos os dias; é exaustivo.

2. A Solução: Uma Fábrica de Problemas com "Mestres" e "Juízes"

Os pesquisadores criaram um sistema com três agentes (robôs) que trabalham juntos, como uma equipe de produção de TV:

  • O Criador (Agente de Evolução): Este é o "chef de cozinha". Ele pega um problema simples (digamos, uma receita de bolo básica) e tenta transformá-lo em algo complexo (um bolo de casamento de 10 andares).
    • O Truque: Ele não apenas muda os números. Ele usa código de computador (Python) como uma "tábua de rascunho". Ele roda simulações, testa milhares de combinações e verifica se a nova receita funciona antes de apresentá-la. Ele tenta esconder a "pista principal" para que o aluno tenha que ter um momento de "Eureka!" para resolver.
  • O Fiscal de Qualidade (Agente de Verificação de Solvabilidade): Este é o "inspetor de obras". Ele pega a nova receita do Criador e diz: "Espere, essa parte não faz sentido matemático. Você não pode dividir por zero aqui". Se o problema tiver falhas lógicas, ele joga fora e pede para o Criador tentar de novo.
  • O Crítico de Dificuldade (Agente de Verificação de Dificuldade): Este é o "treinador de atletas". Ele compara o problema original com o novo. Ele pergunta: "Isso é realmente mais difícil, ou você só aumentou o tamanho dos números para parecer difícil?" Se for apenas "trabalho braçal" (cálculo chato), ele reprova. Se for um desafio intelectual real, ele aprova.

3. A Magia do "Código"

A parte mais legal é que o Criador não apenas pensa; ele executa.
Imagine que você quer inventar um novo jogo de tabuleiro. Em vez de apenas imaginar, você constrói um protótipo rápido no computador, joga 1.000 vezes e vê se o jogo é justo.
No Code2Math, o agente escreve código para:

  • Testar se uma sequência de números tem um padrão escondido.
  • Verificar se um problema geométrico é possível de ser construído.
  • Garantir que a resposta final exista antes de criar o problema.

Isso transforma a criação de problemas de "adivinhação" em "ciência experimental".

4. O Resultado: IAs Criando Desafios que Elas Mesmas Não Conseguem Resolver

O experimento foi um sucesso surpreendente:

  • Qualidade: Os problemas criados eram matematicamente corretos (a maioria passou no teste dos juízes).
  • Dificuldade Real: As IAs conseguiram criar problemas que eram mais difíceis do que elas mesmas conseguiam resolver. É como um aluno de ensino médio que, ao tentar criar um problema de física para o professor, acaba criando algo que o próprio professor demora para resolver.
  • O Custo: Não foi fácil. Para criar um problema bom, o sistema precisou tentar muitas vezes (muitos "rascunhos" falhos) antes de acertar. Foi um processo de tentativa e erro intensivo.

5. Por que isso importa?

Este trabalho mostra que podemos usar IAs não apenas para resolver problemas, mas para expandir o conhecimento humano.

  • Para a Ciência: Podemos gerar milhões de problemas de treinamento para tornar as IAs mais inteligentes.
  • Para a Educação: Podemos criar bancos de questões infinitas e personalizadas para desafiar alunos em todo o mundo.
  • Para a Matemática: Mostra que a "exploração computacional" (usar o computador para testar ideias) é uma ferramenta poderosa para descobrir novos padrões e desafios, assim como um matemático faria, mas em velocidade e escala muito maiores.

Resumo da Ópera:
O Code2Math é como uma fábrica de quebra-cabeças onde a máquina não apenas monta as peças, mas desenha novas peças, testa se elas encaixam e garante que o quebra-cabeça final seja tão difícil que até a própria máquina tenha que suar a camisa para resolvê-lo. É um passo gigante para o futuro da inteligência artificial e da educação.