TaoBench: Do Automated Theorem Prover LLMs Generalize Beyond MathLib?
Dit paper introduceert TaoBench, een nieuw benchmark dat de beperkte generalisatie van geautomatiseerde stellingbewijzers naar niet-standaard wiskundige definities blootlegt, waarbij de prestaties van state-of-the-art modellen gemiddeld met 26% dalen wanneer ze worden getest op een zelfstandig opgebouwd raamwerk uit Terence Tao's Analysis I in plaats van op de gebruikelijke MathLib-bibliotheek.
Alexander K Taylor, Junyi Zhang, Ethan Ji, Vigyan Sahai, Haikang Deng, Yuanzhou Chen, Yifan Yuan, Di Wu, Jia-Chen Gu, Kai-Wei Chang, Nanyun Peng, Amit Sahai, Wei Wang2026-03-16🤖 cs.LG