SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

Le papier présente SpecOps, un cadre de test entièrement automatisé utilisant des agents LLM spécialisés pour évaluer de manière efficace et rentable la fiabilité des agents IA basés sur des interfaces graphiques dans des environnements réels, surpassant les méthodes existantes en précision de planification et en détection de bugs.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu ZhangThu, 12 Ma💻 cs

QuantumX: an experience for the consolidation of Quantum Computing and Quantum Software Engineering as an emerging discipline

Cet article présente le bilan du premier track QuantumX organisé lors des JISBD 2025, qui a réuni des chercheurs espagnols pour consolider l'ingénierie logicielle quantique en synthétisant les contributions, en identifiant les défis communs et en positionnant l'Espagne comme un acteur émergent de l'écosystème quantique européen.

Juan M. Murillo, Ignacio García Rodríguez de Guzmán, Enrique Moguel, Javier Romero-Álvarez, Jaime Alvarado-Valiente, Álvaro M. Aparicio-Morales, Jose Garcia-Alonso, Ana Díaz Muñoz, Eduardo Fernández-Medina, Francisco Chicano, Carlos Canal, José Daniel Viqueira, Sebastián Villarroya, Eduardo Gutiérrez, Adrián Romero-Flores, Alfonso E. Márquez-Chamorro, Antonio Ruiz-Cortes, Cyrille YetuYetu Kesiku, Pedro Sánchez, Diego Alonso Cáceres, Lidia Sánchez-González, Fernando PlouThu, 12 Ma💻 cs

ESG Reporting Lifecycle Management with Large Language Models and AI Agents

Cet article propose un cadre de gestion du cycle de vie des rapports ESG intégrant des agents d'IA et des modèles de langage pour transformer la production de rapports statique en un système dynamique et adaptatif capable d'extraire, de vérifier et de mettre à jour automatiquement les données de durabilité.

Thong Hoang, Mykhailo Klymenko, Xiwei Xu, Shidong Pan, Yi Ding, Xushuo Tang, Zhengyi Yang, Jieke Shi, David LoThu, 12 Ma💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Cette étude menée auprès d'étudiants développeurs révèle que la perception du sentiment des messages est fortement dépendante du contenu spécifique des énoncés et de la variabilité individuelle, plutôt que d'être systématiquement influencée par des facteurs contextuels comme les phases de projet ou les dynamiques de groupe.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt SchneiderThu, 12 Ma💻 cs

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Cet article propose un cadre d'analyse en plusieurs niveaux pour examiner systématiquement 178 benchmarks de modèles et d'agents de langage pour le code, révélant un déséquilibre majeur où la phase d'implémentation domine au détriment des phases de conception et d'exigences, tout en soulignant l'absence de stratégies anti-contamination et en identifiant les défis futurs pour améliorer l'efficacité pratique dans le cycle de vie du développement logiciel.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin ShiMon, 09 Ma🤖 cs.AI

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

Cet article propose une méthodologie structurée basée sur le méta-modèle MeROS et le modèle en V pour intégrer l'ingénierie système basée sur les modèles (MBSE) au développement de systèmes robotiques complexes utilisant ROS, afin d'améliorer leur cohérence sémantique et leur traçabilité.

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro KushnirMon, 09 Ma💻 cs

A Structured Approach to Safety Case Construction for AI Systems

Cet article propose une approche structurée et réutilisable pour la construction de cas de sécurité adaptés aux systèmes d'IA modernes, en introduisant des taxonomies spécifiques et des modèles reproductibles qui surmontent les limites des méthodes traditionnelles face à l'émergence imprévisible et à la dynamique des risques de l'IA générative et agentic.

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel BriandMon, 09 Ma💻 cs

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Le papier présente SWE-MiniSandbox, une méthode légère sans conteneurs qui utilise des mécanismes au niveau du noyau et une mise en cache prédictive pour permettre un entraînement évolutif d'agents d'ingénierie logicielle par apprentissage par renforcement, réduisant ainsi considérablement l'utilisation du disque et le temps de préparation de l'environnement par rapport aux pipelines traditionnels basés sur des conteneurs.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan ZhaoMon, 09 Ma🤖 cs.AI

The Limits of Long-Context Reasoning in Automated Bug Fixing

Cette étude révèle que, malgré des performances prometteuses dans des flux de travail agentiques, les modèles de langage actuels échouent à raisonner efficacement sur de longs contextes pour la correction de bugs, car leur succès repose davantage sur la décomposition des tâches en étapes à court contexte que sur une véritable capacité de raisonnement étendu.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish ThakkerMon, 09 Ma🤖 cs.LG

Theory of Code Space: Do Code Agents Understand Software Architecture?

Ce papier présente Theory of Code Space (ToCS), un benchmark open-source évaluant la capacité des agents de code à maintenir une compréhension architecturale cohérente de bases de code partiellement observables, révélant des écarts significatifs entre les modèles concernant l'exploration active, l'auto-étayage par croyances structurées et la stabilité de la mémoire architecturale.

Grigory SapunovMon, 09 Ma🤖 cs.AI