BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models
Das Paper stellt BeyondBench vor, ein Kontaminations-resistentes Evaluierungsframework, das durch algorithmische Generierung mathematisch fundierter Probleme die echten reasoning-Fähigkeiten von Sprachmodellen unabhängig von Trainingsdaten bewertet und dabei signifikante Leistungseinbußen bei steigender Komplexität aufzeigt.