DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Le papier présente DevBench, un benchmark réaliste et fondé sur des données de télémétrie de développeurs qui évalue neuf modèles de langage avancés sur des tâches de complétion de code en privilégiant la validité écologique et des diagnostics détaillés pour guider leur déploiement pratique.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Cette étude démontre que les métriques spectrales extraites des réseaux de exigences textuels prédisent avec une grande précision l'effort d'intégration, surpassant ainsi les métriques structurelles simples et comblant un vide méthodologique entre l'analyse de complexité architecturale et l'ingénierie des exigences.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Le papier présente ResearchEnvBench, un nouveau benchmark évaluant la capacité des agents autonomes à synthétiser des environnements d'exécution pour du code de recherche, révélant ainsi des lacunes significatives des modèles actuels dans la résolution de dépendances complexes et l'alignement des versions.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Cette étude empirique propose une taxonomie complète des défauts dans les systèmes d'IA agentique, identifiant 37 types de pannes, leurs symptômes et leurs causes racines à travers l'analyse de milliers de problèmes issus de dépôts open-source, afin de mieux comprendre les défaillances spécifiques liées à l'intégration des modèles de langage et des outils externes.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Cette étude évalue la capacité de raisonnement de dix petits modèles de langage dans la génération de décisions architecturales logicielles, révélant qu'une taille supérieure à 3 milliards de paramètres est cruciale pour des performances robustes en zéro-shot, tandis que l'ajustement fin et l'inférence avec quelques exemples offrent des avantages spécifiques mais limités pour les modèles plus petits, soulignant ainsi les défis de l'équilibre entre diversité sémantique et hallucinations.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Cet article présente un système hybride de recommandation basé sur l'apprentissage à classer (LTR) et l'embedding du contexte social de Stack Overflow, utilisant le traitement du langage naturel et l'apprentissage profond pour aider les développeurs à identifier les solutions aux bugs logiciels avec une précision d'environ 78 % pour les dix meilleures réponses.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Cette étude empirique démontre que, quel que soit le modèle ou le régime de prompt utilisé, les contraintes de déploiement n'empêchent pas les LLMs de générer massivement des citations fictives qui restent formatiquement valides, soulignant ainsi la nécessité impérative d'une vérification post-hoc avant leur intégration dans la littérature scientifique ou les outils d'ingénierie logicielle.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Le papier présente Echo, un agent novateur qui génère des tests de reproduction de bugs en combinant une récupération de contexte enrichie par un graphe de code, une exécution automatique pour valider les résultats et fournir des retours, et une stratégie de génération unique, atteignant ainsi un taux de réussite de 66,28 % sur le benchmark SWT-Bench Verified.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Cette étude présente la première évaluation systématique des représentations de code pour l'évaluation de la justesse des correctifs automatisés, démontrant que les représentations basées sur des graphes surpassent systématiquement les autres méthodes et que leur combinaison avec des représentations séquentielles améliore significativement la détection des correctifs surajustés.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Le papier présente AgentRaft, un cadre automatisé innovant qui combine l'analyse de programme et le raisonnement sémantique pour détecter efficacement les risques de surexposition des données dans les agents LLM en modélisant les interactions entre outils, en synthétisant des prompts de test et en appliquant un suivi de contamination runtime conforme aux réglementations sur la protection des données.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Ce papier présente KCoEvo, un cadre enrichi par des graphes de connaissances qui améliore la génération de code évolutif en décomposant la tâche de migration en deux étapes synergiques de récupération de chemins d'évolution et de génération de code informée, surpassant ainsi les modèles de langage standards en précision et en taux de succès d'exécution.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Cette étude démontre que l'obfuscation de code augmente généralement le temps de compréhension et réduit la précision des prédictions d'exécution, bien que l'impact varie selon le langage (avec des effets non monotones en Python) et que l'expérience des développeurs soit davantage liée à la familiarité avec un langage spécifique qu'à une compétence générale.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Cette étude, basée sur des entretiens avec des équipes de développement d'IA au Brésil et au Portugal, démontre que la diversité des équipes joue un rôle crucial dans l'identification des biais, l'empathie et la prise de décision inclusive, offrant ainsi des recommandations pratiques pour intégrer l'équité dans les pratiques de développement logiciel.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs