FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
Dit paper introduceert FATE, een nieuwe reeks formele algebra-benchmarks met problemen die variëren van undergraduate-oefeningen tot PhD-niveau, om de aanzienlijke kloof tussen de huidige prestaties van grote taalmodellen in wiskundig redeneren en het niveau van modern wetenschappelijk onderzoek in kaart te brengen.