cs.SE articles | Gist.Science

Process-Centric Analysis of Agentic Software Systems

Ce papier présente Graphectory, une méthode d'analyse process-centrée des systèmes agentic qui encode leurs trajectoires sous forme de graphes pour révéler des insights sur leur raisonnement et permettre une intervention en temps réel améliorant significativement les taux de résolution des problèmes.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Le papier présente DevBench, un benchmark réaliste et fondé sur des données de télémétrie de développeurs qui évalue neuf modèles de langage avancés sur des tâches de complétion de code en privilégiant la validité écologique et des diagnostics détaillés pour guider leur déploiement pratique.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Cette étude démontre que les métriques spectrales extraites des réseaux de exigences textuels prédisent avec une grande précision l'effort d'intégration, surpassant ainsi les métriques structurelles simples et comblant un vide méthodologique entre l'analyse de complexité architecturale et l'ingénierie des exigences.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Le papier présente GraphSkill, un cadre de codage guidé par la documentation qui améliore le raisonnement sur les graphes complexes grâce à une récupération hiérarchique et un agent d'auto-débogage, tout en introduisant un nouveau jeu de données pour l'évaluation.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Le papier présente ResearchEnvBench, un nouveau benchmark évaluant la capacité des agents autonomes à synthétiser des environnements d'exécution pour du code de recherche, révélant ainsi des lacunes significatives des modèles actuels dans la résolution de dépendances complexes et l'alignement des versions.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Cette étude empirique propose une taxonomie complète des défauts dans les systèmes d'IA agentique, identifiant 37 types de pannes, leurs symptômes et leurs causes racines à travers l'analyse de milliers de problèmes issus de dépôts open-source, afin de mieux comprendre les défaillances spécifiques liées à l'intégration des modèles de langage et des outils externes.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

Ce papier introduit le benchmark PVBench pour révéler que plus de 40 % des correctifs générés par des systèmes de réparation automatisée, jugés valides par des tests de base, échouent en réalité lorsqu'ils sont soumis à des tests avancés (PoC⁺) qui vérifient l'intention des développeurs et les spécifications du programme.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

Cet article présente Marauder, un cadre déclaratif qui unifie la gestion des mutants manuels grâce à une algèbre de mutations et un pipeline de conversion sans perte, permettant ainsi d'optimiser l'efficacité et l'expressivité des expériences de test.

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Cette étude évalue la capacité de raisonnement de dix petits modèles de langage dans la génération de décisions architecturales logicielles, révélant qu'une taille supérieure à 3 milliards de paramètres est cruciale pour des performances robustes en zéro-shot, tandis que l'ajustement fin et l'inférence avec quelques exemples offrent des avantages spécifiques mais limités pour les modèles plus petits, soulignant ainsi les défis de l'équilibre entre diversité sémantique et hallucinations.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Cet article présente un système hybride de recommandation basé sur l'apprentissage à classer (LTR) et l'embedding du contexte social de Stack Overflow, utilisant le traitement du langage naturel et l'apprentissage profond pour aider les développeurs à identifier les solutions aux bugs logiciels avec une précision d'environ 78 % pour les dix meilleures réponses.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Cette étude empirique démontre que, quel que soit le modèle ou le régime de prompt utilisé, les contraintes de déploiement n'empêchent pas les LLMs de générer massivement des citations fictives qui restent formatiquement valides, soulignant ainsi la nécessité impérative d'une vérification post-hoc avant leur intégration dans la littérature scientifique ou les outils d'ingénierie logicielle.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Le papier présente Echo, un agent novateur qui génère des tests de reproduction de bugs en combinant une récupération de contexte enrichie par un graphe de code, une exécution automatique pour valider les résultats et fournir des retours, et une stratégie de génération unique, atteignant ainsi un taux de réussite de 66,28 % sur le benchmark SWT-Bench Verified.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Cette étude qualitative explore comment les équipes logicielles distantes et hybrides adaptent leurs processus, outils et pratiques de tests de régression en s'appuyant davantage sur la documentation, l'automatisation et des mécanismes de traçabilité pour compenser le manque d'interactions informelles.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

Cette étude systématique examine l'intégration de l'empathie dans l'enseignement du génie logiciel, révélant comment sa transformation d'une compétence douce périphérique en une pratique pédagogique structurée et mesurable peut renforcer la collaboration, l'éthique et l'innovation responsable chez les futurs ingénieurs.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Cette étude présente la première évaluation systématique des représentations de code pour l'évaluation de la justesse des correctifs automatisés, démontrant que les représentations basées sur des graphes surpassent systématiquement les autres méthodes et que leur combinaison avec des représentations séquentielles améliore significativement la détection des correctifs surajustés.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Le papier présente AgentRaft, un cadre automatisé innovant qui combine l'analyse de programme et le raisonnement sémantique pour détecter efficacement les risques de surexposition des données dans les agents LLM en modélisant les interactions entre outils, en synthétisant des prompts de test et en appliquant un suivi de contamination runtime conforme aux réglementations sur la protection des données.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Ce papier présente KCoEvo, un cadre enrichi par des graphes de connaissances qui améliore la génération de code évolutif en décomposant la tâche de migration en deux étapes synergiques de récupération de chemins d'évolution et de génération de code informée, surpassant ainsi les modèles de langage standards en précision et en taux de succès d'exécution.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Cette étude démontre que l'obfuscation de code augmente généralement le temps de compréhension et réduit la précision des prédictions d'exécution, bien que l'impact varie selon le langage (avec des effets non monotones en Python) et que l'expérience des développeurs soit davantage liée à la familiarité avec un langage spécifique qu'à une compétence générale.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Cette étude, basée sur des entretiens avec des équipes de développement d'IA au Brésil et au Portugal, démontre que la diversité des équipes joue un rôle crucial dans l'identification des biais, l'empathie et la prise de décision inclusive, offrant ainsi des recommandations pratiques pour intégrer l'équité dans les pratiques de développement logiciel.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs

IOTEL: A Tool for Generating IoT-enriched Object-Centric Event Logs

Cet article présente IOTEL, un outil conçu pour générer systématiquement des journaux d'événements centrés sur les objets enrichis de données IoT, permettant ainsi une intégration structurée compatible avec les outils d'extraction de processus existants pour faciliter l'analyse des processus métier améliorés par l'IoT.

Jia Wei, Xin Su, Chun OuyangTue, 10 Ma💻 cs

← Précédent Suivant →