cs.SE articles | Gist.Science

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

Le papier présente SpecOps, un cadre de test entièrement automatisé utilisant des agents LLM spécialisés pour évaluer de manière efficace et rentable la fiabilité des agents IA basés sur des interfaces graphiques dans des environnements réels, surpassant les méthodes existantes en précision de planification et en détection de bugs.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu ZhangThu, 12 Ma💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Cet article propose un changement de paradigme de la vérification logicielle vers l'« herding » (pilotage), exploitant la « sparsité de l'influence » via un nouvel algorithme stochastique nommé EZR pour atteindre des objectifs complexes avec un nombre minimal de tests.

Tim Menzies, Kishan Kumar GangulyThu, 12 Ma💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

Ce papier présente FP-Predictor, un modèle de réseau de convolution graphique entraîné sur des graphes de propriétés de code pour prédire avec une grande précision les faux positifs des rapports d'analyse statique de sécurité, tout en identifiant les limites liées à la représentation du flux de contrôle et en proposant des améliorations futures.

Tom Ohlmer, Michael Schlichtig, Eric BoddenThu, 12 Ma💻 cs

QuantumX: an experience for the consolidation of Quantum Computing and Quantum Software Engineering as an emerging discipline

Cet article présente le bilan du premier track QuantumX organisé lors des JISBD 2025, qui a réuni des chercheurs espagnols pour consolider l'ingénierie logicielle quantique en synthétisant les contributions, en identifiant les défis communs et en positionnant l'Espagne comme un acteur émergent de l'écosystème quantique européen.

Juan M. Murillo, Ignacio García Rodríguez de Guzmán, Enrique Moguel, Javier Romero-Álvarez, Jaime Alvarado-Valiente, Álvaro M. Aparicio-Morales, Jose Garcia-Alonso, Ana Díaz Muñoz, Eduardo Fernández-Medina, Francisco Chicano, Carlos Canal, José Daniel Viqueira, Sebastián Villarroya, Eduardo Gutiérrez, Adrián Romero-Flores, Alfonso E. Márquez-Chamorro, Antonio Ruiz-Cortes, Cyrille YetuYetu Kesiku, Pedro Sánchez, Diego Alonso Cáceres, Lidia Sánchez-González, Fernando PlouThu, 12 Ma💻 cs

ESG Reporting Lifecycle Management with Large Language Models and AI Agents

Cet article propose un cadre de gestion du cycle de vie des rapports ESG intégrant des agents d'IA et des modèles de langage pour transformer la production de rapports statique en un système dynamique et adaptatif capable d'extraire, de vérifier et de mettre à jour automatiquement les données de durabilité.

Thong Hoang, Mykhailo Klymenko, Xiwei Xu, Shidong Pan, Yi Ding, Xushuo Tang, Zhengyi Yang, Jieke Shi, David LoThu, 12 Ma💻 cs

From Education to Evidence: A Collaborative Practice Research Platform for AI-Integrated Agile Development

Cet article présente une plateforme éducative collaborative intégrant l'IA et les méthodes agiles, conçue comme un environnement de recherche intermédiaire pour générer rapidement des preuves pratiques et reutilisables sur le développement logiciel assisté par l'IA.

Tobias Geger, Andreas Rausch, Ina Schiering, Frauke Stenzel, Stefan WittekThu, 12 Ma💻 cs

Packaging Jupyter notebooks as installable desktop apps using LabConstrictor

Le papier présente LabConstrictor, un outil qui automatise le conditionnement des notebooks Jupyter en applications de bureau installables via une pipeline GitHub, afin de surmonter les barrières techniques à l'adoption et au partage des logiciels open-source en sciences de la vie.

Iván Hidalgo-Cenalmor, Marcela Xiomara Rivera Pineda, Bruno M. Saraiva, Ricardo Henriques, Guillaume JacquemetThu, 12 Ma🧬 q-bio

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

Ce papier propose le développement « Nurture-First » (NFD), un nouveau paradigme qui remplace les approches de codage ou de prompt statique par une croissance progressive des agents via des interactions conversationnelles structurées, permettant la cristallisation continue de l'expertise de domaine tacite en actifs de connaissances réutilisables.

Linghao ZhangThu, 12 Ma🤖 cs.AI

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Cette étude menée auprès d'étudiants développeurs révèle que la perception du sentiment des messages est fortement dépendante du contenu spécifique des énoncés et de la variabilité individuelle, plutôt que d'être systématiquement influencée par des facteurs contextuels comme les phases de projet ou les dynamiques de groupe.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt SchneiderThu, 12 Ma💻 cs

STADA: Specification-based Testing for Autonomous Driving Agents

Ce papier présente STADA, un cadre de génération de tests basé sur les spécifications formelles en logique temporelle (LTLf) pour les agents de conduite autonome, qui surpasse les méthodes existantes en offrant une couverture de validation supérieure avec un nombre de simulations considérablement réduit.

Joy Saha, Trey Woodlief, Sebastian Elbaum, Matthew B. DwyerThu, 12 Ma💻 cs

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Ce papier présente TOSSS, un nouveau benchmark basé sur la base de données CVE permettant d'évaluer la capacité des modèles de langage à distinguer le code sécurisé du code vulnérable, révélant des scores de sécurité variables parmi 14 modèles testés.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos WensveenThu, 12 Ma🤖 cs.LG

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Cet article démontre que l'intégration de l'intelligence artificielle, notamment via l'apprentissage automatique et le traitement du langage naturel, agit comme un catalyseur essentiel pour optimiser les méthodologies Agile, automatiser les tâches répétitives et favoriser l'innovation dans le génie logiciel.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-CisnerosThu, 12 Ma🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Cet article propose un cadre d'analyse en plusieurs niveaux pour examiner systématiquement 178 benchmarks de modèles et d'agents de langage pour le code, révélant un déséquilibre majeur où la phase d'implémentation domine au détriment des phases de conception et d'exigences, tout en soulignant l'absence de stratégies anti-contamination et en identifiant les défis futurs pour améliorer l'efficacité pratique dans le cycle de vie du développement logiciel.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin ShiMon, 09 Ma🤖 cs.AI

Systems of Twinned Systems: A Systematic Literature Review

Cet article présente une revue systématique de la littérature sur les « systèmes de systèmes jumeaux », basée sur l'analyse de 80 études sélectionnées parmi plus de 2 500, afin de proposer un cadre de classification unifiant les paradigmes des systèmes de systèmes et des jumeaux numériques.

Feyi Adesanya, Kanan Castro Silva, Valdemar V. Graciano Neto, Istvan DavidMon, 09 Ma💻 cs

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

Cet article propose une méthodologie structurée basée sur le méta-modèle MeROS et le modèle en V pour intégrer l'ingénierie système basée sur les modèles (MBSE) au développement de systèmes robotiques complexes utilisant ROS, afin d'améliorer leur cohérence sémantique et leur traçabilité.

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro KushnirMon, 09 Ma💻 cs

UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval

Ce papier présente UniCoR, un cadre auto-supervisé innovant qui améliore la recherche hybride de code multilingue en surmontant les défis de compréhension sémantique et de généralisation grâce à un apprentissage contrastif multi-perspectives et à une cohérence de distribution des représentations.

Yang Yang, Li Kuang, Jiakun Liu, Zhongxin Liu, Yingjie Xia, David LoMon, 09 Ma💻 cs

A Structured Approach to Safety Case Construction for AI Systems

Cet article propose une approche structurée et réutilisable pour la construction de cas de sécurité adaptés aux systèmes d'IA modernes, en introduisant des taxonomies spécifiques et des modèles reproductibles qui surmontent les limites des méthodes traditionnelles face à l'émergence imprévisible et à la dynamique des risques de l'IA générative et agentic.

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel BriandMon, 09 Ma💻 cs

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Le papier présente SWE-MiniSandbox, une méthode légère sans conteneurs qui utilise des mécanismes au niveau du noyau et une mise en cache prédictive pour permettre un entraînement évolutif d'agents d'ingénierie logicielle par apprentissage par renforcement, réduisant ainsi considérablement l'utilisation du disque et le temps de préparation de l'environnement par rapport aux pipelines traditionnels basés sur des conteneurs.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan ZhaoMon, 09 Ma🤖 cs.AI

The Limits of Long-Context Reasoning in Automated Bug Fixing

Cette étude révèle que, malgré des performances prometteuses dans des flux de travail agentiques, les modèles de langage actuels échouent à raisonner efficacement sur de longs contextes pour la correction de bugs, car leur succès repose davantage sur la décomposition des tâches en étapes à court contexte que sur une véritable capacité de raisonnement étendu.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish ThakkerMon, 09 Ma🤖 cs.LG

Theory of Code Space: Do Code Agents Understand Software Architecture?

Ce papier présente Theory of Code Space (ToCS), un benchmark open-source évaluant la capacité des agents de code à maintenir une compréhension architecturale cohérente de bases de code partiellement observables, révélant des écarts significatifs entre les modèles concernant l'exploration active, l'auto-étayage par croyances structurées et la stabilité de la mémoire architecturale.

Grigory SapunovMon, 09 Ma🤖 cs.AI

← Précédent Suivant →