EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.