EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
Die Arbeit stellt EsoLang-Bench vor, einen Benchmark auf Basis esoterischer Programmiersprachen, der zeigt, dass große Sprachmodelle trotz hoher Leistungen bei Standardtests kaum genuine Reasoning-Fähigkeiten besitzen und stattdessen auf Memorierung angewiesen sind.