The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?
Deze paper introduceert CompMath-MCQ, een nieuw benchmarkdataset met 1.500 door professoren geschreven meerkeuzevragen op graduate-niveau voor de evaluatie van LLM's in geavanceerde wiskundige redenering, waaruit blijkt dat dit voor huidige modellen nog een aanzienlijke uitdaging blijft.