EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
El artículo presenta EsoLang-Bench, un nuevo benchmark que utiliza lenguajes de programación esotéricos para demostrar que, a pesar de su alto rendimiento en tareas de codificación estándar, los modelos de lenguaje actuales carecen de razonamiento genuino y dependen en gran medida de la memorización de datos de entrenamiento.