FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
Le papier présente FATE, une nouvelle série de benchmarks en algèbre formelle couvrant des niveaux de difficulté allant des exercices universitaires à des problèmes dépassant les examens de doctorat, révélant que les modèles de langage actuels éprouvent des difficultés majeures à formaliser un raisonnement mathématique avancé, avec des taux de réussite extrêmement faibles sur les problèmes les plus complexes.