EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
O artigo apresenta o EsoLang-Bench, um novo benchmark que utiliza linguagens de programação esotéricas para avaliar o raciocínio genuíno de modelos de linguagem, revelando que, apesar de seu alto desempenho em tarefas de codificação convencionais, eles falham drasticamente ao aprender novas linguagens a partir de documentação, indicando que seus resultados anteriores derivam mais de memorização do que de capacidade de raciocínio transferível.