cs.SE articoli | Gist.Science

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

Il paper introduce SpecOps, un framework di testing completamente automatizzato che utilizza agenti AI specializzati per valutare in modo efficace e scalabile le prestazioni e rilevare bug in agenti GUI reali, superando le soluzioni esistenti in termini di accuratezza ed efficienza.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu ZhangThu, 12 Ma💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Il paper propone un passaggio dalla verifica costosa al "herding" basato sulla sparsità di influenza, introducendo EZR, un apprendista stocastico che raggiunge il 90% dei risultati ottimali con soli 32 campioni evitando solutori complessi.

Tim Menzies, Kishan Kumar GangulyThu, 12 Ma💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

Il paper presenta FP-Predictor, un modello basato su Graph Convolutional Network che utilizza i Code Property Graphs per prevedere con alta accuratezza i falsi positivi negli report di analisi statica della sicurezza, dimostrando una forte capacità di ragionamento orientato alla sicurezza pur presentando limitazioni nella rappresentazione del flusso di controllo interprocedurale.

Tom Ohlmer, Michael Schlichtig, Eric BoddenThu, 12 Ma💻 cs

QuantumX: an experience for the consolidation of Quantum Computing and Quantum Software Engineering as an emerging discipline

Questo articolo presenta una sintesi strutturata della prima edizione del track QuantumX, tenutosi presso le JISBD 2025, che ha riunito i principali gruppi di ricerca spagnoli per consolidare l'Ingegneria del Software Quantistico come disciplina emergente, definire sfide comuni e posizionare la Spagna come attore chiave nell'ecosistema quantistico europeo e globale.

Juan M. Murillo, Ignacio García Rodríguez de Guzmán, Enrique Moguel, Javier Romero-Álvarez, Jaime Alvarado-Valiente, Álvaro M. Aparicio-Morales, Jose Garcia-Alonso, Ana Díaz Muñoz, Eduardo Fernández-Medina, Francisco Chicano, Carlos Canal, José Daniel Viqueira, Sebastián Villarroya, Eduardo Gutiérrez, Adrián Romero-Flores, Alfonso E. Márquez-Chamorro, Antonio Ruiz-Cortes, Cyrille YetuYetu Kesiku, Pedro Sánchez, Diego Alonso Cáceres, Lidia Sánchez-González, Fernando PlouThu, 12 Ma💻 cs

ESG Reporting Lifecycle Management with Large Language Models and AI Agents

Il paper propone un framework agentic basato su modelli linguistici e agenti AI che trasforma il ciclo di vita della reportistica ESG da un processo statico a un sistema dinamico e adattivo, integrando automazione e feedback continuo per identificazione, misurazione, reporting e miglioramento delle performance di sostenibilità.

Thong Hoang, Mykhailo Klymenko, Xiwei Xu, Shidong Pan, Yi Ding, Xushuo Tang, Zhengyi Yang, Jieke Shi, David LoThu, 12 Ma💻 cs

From Education to Evidence: A Collaborative Practice Research Platform for AI-Integrated Agile Development

Questo articolo presenta una piattaforma educativa collaborativa basata su progetti e integrata con l'IA, progettata per colmare il divario tra ricerca e pratica nello sviluppo agile, generando evidenze pertinenti e riutilizzabili attraverso cicli iterativi rapidi e un coinvolgimento reale degli stakeholder.

Tobias Geger, Andreas Rausch, Ina Schiering, Frauke Stenzel, Stefan WittekThu, 12 Ma💻 cs

Packaging Jupyter notebooks as installable desktop apps using LabConstrictor

Il paper presenta LabConstrictor, un sistema basato su GitHub che automatizza il confezionamento di notebook Jupyter in applicazioni desktop installabili con un clic, superando le barriere tecniche di distribuzione e manutenzione del software open-source nelle scienze della vita.

Iván Hidalgo-Cenalmor, Marcela Xiomara Rivera Pineda, Bruno M. Saraiva, Ricardo Henriques, Guillaume JacquemetThu, 12 Ma🧬 q-bio

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

Il documento propone la "Nurture-First Development" (NFD), un nuovo paradigma che sostituisce i tradizionali approcci ingegneristici sequenziali con un processo evolutivo in cui gli agenti AI specializzati vengono cresciuti attraverso interazioni conversazionali strutturate con esperti umani, consolidando periodicamente la conoscenza tacita in asset riutilizzabili tramite un ciclo di "cristallizzazione della conoscenza".

Linghao ZhangThu, 12 Ma🤖 cs.AI

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Questo studio indaga come fattori individuali, contestuali e di gruppo influenzino la percezione del sentiment nelle comunicazioni software, rivelando che tale percezione è instabile, fortemente dipendente dall'ambiguità del messaggio e scarsamente correlata a variabili esterne, suggerendo cautela nell'interpretazione dei risultati dell'analisi del sentiment.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt SchneiderThu, 12 Ma💻 cs

STADA: Specification-based Testing for Autonomous Driving Agents

Il paper presenta STADA, un framework di generazione di test basato su specifiche formali in logica temporale che, per la validazione degli agenti di guida autonoma, supera le tecniche esistenti offrendo una copertura significativamente superiore con un numero di simulazioni drasticamente ridotto.

Joy Saha, Trey Woodlief, Sebastian Elbaum, Matthew B. DwyerThu, 12 Ma💻 cs

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Il paper introduce TOSSS, un nuovo benchmark basato sul database CVE per valutare la capacità dei Large Language Models di selezionare frammenti di codice sicuri rispetto a quelli vulnerabili, fornendo un punteggio di sicurezza complementare alle valutazioni esistenti.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos WensveenThu, 12 Ma🤖 cs.LG

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Questo articolo esamina come l'intelligenza artificiale, in particolare attraverso l'apprendimento automatico e l'elaborazione del linguaggio naturale, agisca da catalizzatore per l'innovazione nell'ingegneria del software, ottimizzando le pratiche Agile e automatizzando compiti ripetitivi per migliorare qualità, velocità e adattabilità.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-CisnerosThu, 12 Ma🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Questo studio propone un quadro di analisi a livelli per esaminare 178 benchmark di modelli linguistici e agenti per il codice, rivelando una significativa disparità nella copertura delle fasi del ciclo di vita del software (con un'enfasi eccessiva sull'implementazione e una scarsa attenzione alla progettazione e ai requisiti) e sottolineando la necessità di strategie anti-contaminazione per garantire valutazioni più robuste e pratiche.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin ShiMon, 09 Ma🤖 cs.AI

Systems of Twinned Systems: A Systematic Literature Review

Questo studio presenta una revisione sistematica della letteratura su "sistemi di sistemi gemellati", analizzando oltre 2.500 pubblicazioni per derivare un framework di classificazione che integra i paradigmi dei sistemi di sistemi e dei digital twin.

Feyi Adesanya, Kanan Castro Silva, Valdemar V. Graciano Neto, Istvan DavidMon, 09 Ma💻 cs

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

Questo articolo propone una metodologia strutturata basata sul metamodello MeROS e sul modello a V per integrare l'ingegneria dei sistemi basata su modelli (MBSE) con il Robot Operating System (ROS), al fine di migliorare la tracciabilità e la coordinazione affidabile di sistemi robotici eterogenei complessi.

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro KushnirMon, 09 Ma💻 cs

UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval

Il paper presenta UniCoR, un nuovo framework auto-supervisionato che risolve le sfide della ricerca ibrida di codice cross-lingua migliorando la comprensione semantica, la fusione delle modalità e la generalizzazione attraverso l'allineamento delle rappresentazioni e delle distribuzioni delle caratteristiche.

Yang Yang, Li Kuang, Jiakun Liu, Zhongxin Liu, Yingjie Xia, David LoMon, 09 Ma💻 cs

A Structured Approach to Safety Case Construction for AI Systems

Questo studio propone un approccio strutturato e riutilizzabile per la costruzione di casi di sicurezza specifici per i sistemi di intelligenza artificiale, introducendo tassonomie personalizzate e modelli adattivi che superano i limiti delle pratiche ingegneristiche tradizionali di fronte alla natura dinamica e imprevedibile dell'IA generativa.

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel BriandMon, 09 Ma💻 cs

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Il paper presenta SWE-MiniSandbox, un metodo leggero e privo di container che utilizza meccanismi a livello di kernel e tecniche di pre-caching per abilitare l'addestramento scalabile di agenti di ingegneria software tramite reinforcement learning, riducendo drasticamente l'uso del disco e i tempi di preparazione dell'ambiente rispetto alle pipeline basate su container.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan ZhaoMon, 09 Ma🤖 cs.AI

The Limits of Long-Context Reasoning in Automated Bug Fixing

Questo studio dimostra che, nonostante i recenti progressi nei modelli linguistici su larga scala, la loro capacità di ragionamento diretto su contesti estesi (fino a 64k token) per la correzione di bug è fortemente limitata, rivelando che i successi osservati nei benchmark agenziali derivano principalmente dalla decomposizione dei compiti in passaggi a breve contesto piuttosto che da una reale capacità di elaborazione di lunghi contesti.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish ThakkerMon, 09 Ma🤖 cs.LG

Theory of Code Space: Do Code Agents Understand Software Architecture?

Il paper introduce Theory of Code Space (ToCS), un benchmark open-source che valuta la capacità degli agenti AI di costruire e mantenere credenze architetturali coerenti durante l'esplorazione di codebase, rivelando attraverso esperimenti su diversi modelli linguistici differenze significative nella capacità di esplorazione attiva, nell'uso di mappe strutturate come auto-scaffalatura e nella stabilità della memoria delle credenze.

Grigory SapunovMon, 09 Ma🤖 cs.AI

← Precedente Successivo →