FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
Il paper introduce FATE, una nuova serie di benchmark formali in algebra che copre difficoltà fino al livello di ricerca avanzata, rivelando che gli attuali modelli LLM faticano enormemente a formalizzare il ragionamento matematico, ottenendo prestazioni quasi nulle rispetto ai risultati nei concorsi matematici tradizionali.