BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models
Le papier présente BeyondBench, un cadre d'évaluation résistant à la contamination qui génère dynamiquement des problèmes algorithmiques pour mesurer le véritable raisonnement des modèles de langage, révélant ainsi des déficiences significatives dans leur capacité à résoudre des tâches complexes sans outils externes.