FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
Die Arbeit stellt FATE vor, eine neue Benchmark-Serie für formale Algebra, die LLMs vor extrem schwierige Forschungsprobleme stellt und dabei massive Leistungslücken sowie spezifische Fehlermuster bei der Formalisierung aufzeigt.