FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
El artículo presenta FATE, una nueva serie de benchmarks en álgebra formal que abarca desde ejercicios universitarios hasta problemas de investigación avanzada, revelando que los modelos de lenguaje actuales tienen un rendimiento muy limitado en esta área, especialmente en la formalización de su razonamiento natural.