TopoBench: Benchmarking LLMs on Hard Topological Reasoning
Ce papier présente TopoBench, un benchmark évaluant les capacités de raisonnement topologique des grands modèles de langage sur des énigmes spatiales complexes, révélant que leurs échecs proviennent principalement de difficultés à extraire et maintenir les contraintes spatiales plutôt que d'une incapacité à raisonner sur celles-ci.