FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
O artigo apresenta o FATE, uma nova série de benchmarks em álgebra formal com níveis de dificuldade que vão de exercícios universitários a problemas além de exames de doutorado, revelando que os modelos de linguagem atuais têm desempenho significativamente inferior nessa tarefa de raciocínio matemático avançado em comparação com competições tradicionais.