The Limits of Long-Context Reasoning in Automated Bug Fixing
Cette étude révèle que, malgré des performances prometteuses dans des flux de travail agentiques, les modèles de langage actuels échouent à raisonner efficacement sur de longs contextes pour la correction de bugs, car leur succès repose davantage sur la décomposition des tâches en étapes à court contexte que sur une véritable capacité de raisonnement étendu.