cs.SE articoli | Gist.Science

Process-Centric Analysis of Agentic Software Systems

Il paper introduce Graphectory, un metodo basato su grafi per analizzare in modo sistematico le traiettorie di esecuzione degli agenti software, rivelando come la complessità dei processi influenzi il successo nella risoluzione dei problemi e dimostrando che il monitoraggio in tempo reale con interventi correttivi può migliorare significativamente i tassi di risoluzione riducendo al contempo la lunghezza delle traiettorie.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench è un benchmark basato su dati reali di sviluppo che valuta le prestazioni dei modelli di linguaggio su compiti di completamento del codice, offrendo diagnosi dettagliate e metriche pratiche per guidare la selezione e il miglioramento dei modelli.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Questo studio dimostra che le metriche spettrali estratte da reti strutturali di requisiti testuali, validate attraverso un esperimento con integrazioni molecolari, prevedono con elevata accuratezza lo sforzo di integrazione, colmando un divario metodologico tra l'analisi della complessità architetturale e l'ingegneria dei requisiti.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Il paper introduce GraphSkill, un framework agentic che migliora il ragionamento su grafi complessi tramite un recupero gerarchico guidato dalla documentazione e un agente di autodebugging, validato su un nuovo dataset dedicato.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Il paper introduce ResearchEnvBench, un nuovo benchmark che valuta la capacità degli agenti autonomi di sintetizzare ambienti di esecuzione per codice di ricerca, rivelando significative lacune nelle attuali soluzioni nello sviluppo di dipendenze e nell'adattamento delle versioni software.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Questo studio empirico analizza 13.602 issue di sistemi di Intelligenza Artificiale Agentica per derivare una tassonomia di 37 tipi di guasti, 13 sintomi osservabili e 12 cause radice, rivelando come le discrepanze tra la generazione probabilistica e i vincoli deterministici siano alla base di frequenti fallimenti sistemici.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

Questo studio introduce PVBench, un benchmark che rivela come oltre il 40% delle patch di riparazione automatica delle vulnerabilità, considerate corrette dai test di base, falliscano quando sottoposti a test avanzati (PoC⁺), evidenziando la necessità per i sistemi AVR di migliorare l'analisi delle cause profonde, l'aderenza alle specifiche e la cattura delle intenzioni degli sviluppatori.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

Il paper presenta Marauder, un framework dichiarativo che unifica diverse rappresentazioni di mutazioni manuali attraverso un'algebra e una pipeline di conversione, permettendo l'iniezione, l'esecuzione selettiva e la composizione efficiente di mutazioni per migliorare gli strumenti di testing.

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Questo studio presenta un framework di valutazione multidimensionale per analizzare le capacità di ragionamento di dieci Small Language Models nella generazione di registri di decisioni architetturali, rivelando che i modelli superiori a 3 miliardi di parametri eccellono nello zero-shot, mentre quelli più piccoli traggono maggior beneficio dal fine-tuning e che l'elevata diversità semantica spesso si traduce in allucinazioni.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Questo articolo propone un sistema ibrido di raccomandazione basato su Learning-to-Rank e incorporamento del contesto sociale, che utilizza tecniche di deep learning e mining di Stack Overflow per identificare con un'accuratezza del 78% le migliori soluzioni ai bug software per gli sviluppatori.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Questo studio empirico dimostra che, indipendentemente dal modello o dal regime di prompting utilizzato, le restrizioni di deployment non impediscono agli LLM di allucinare citazioni bibliografiche, con tassi di esistenza reale che non superano il 47,5% e un'alta incidenza di riferimenti inesistenti o non verificabili.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Il paper presenta Echo, un agente innovativo che genera automaticamente casi di test per la riproduzione di bug sfruttando un grafo del codice, l'esecuzione dei test e feedback di correzione, ottenendo un tasso di successo del 66,28% e stabilendo un nuovo stato dell'arte tra gli approcci open-source.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Questo studio qualitativo esamina come il testing di regressione nelle squadre software remote e ibride si sia evoluto da una pratica basata su interazioni informali a un processo socio-tecnico sostenuto da documentazione, automazione e strumenti di coordinamento per facilitare la collaborazione asincrona.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

Questo studio sistematico su 43 ricerche evidenzia come l'integrazione strutturata dell'empatia nell'educazione all'ingegneria del software, sebbene attualmente frammentata, sia fondamentale per migliorare la collaborazione, l'etica e la progettazione incentrata sull'utente.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Questo studio presenta la prima analisi estesa che dimostra come le rappresentazioni del codice basate su grafi superino sistematicamente altri metodi nel valutare l'accuratezza delle patch automatizzate, offrendo soluzioni pratiche per ridurre il sovraccarico di debug e migliorare l'affidabilità degli strumenti di riparazione del software.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Il paper presenta AgentRaft, un framework automatizzato che combina analisi del programma e ragionamento semantico per rilevare il rischio di sovraesposizione dei dati negli agenti LLM, identificando violazioni della privacy in oltre il 57% dei percorsi di interazione tra strumenti reali.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Il paper presenta KCoEvo, un framework potenziato da grafi della conoscenza che migliora l'accuratezza e l'esecuzione del codice evolutivo suddividendo il task di migrazione in recupero di percorsi evolutivi e generazione di codice informato, superando i limiti dei modelli linguistici di grandi dimensioni nel gestire le modifiche alle API di terze parti.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Lo studio analizza come l'offuscamento del codice influenzi la comprensione umana attraverso un compito di previsione degli output, rivelando che tale pratica aumenta generalmente i tempi di ragionamento e riduce l'accuratezza, ma con effetti non monotoni che variano tra Python e JavaScript e che spostano i partecipanti da un ragionamento euristico rapido a processi più deliberati.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Questo studio, basato su interviste con team di sviluppo AI in Brasile e Portogallo, evidenzia come la diversità del team giochi un ruolo cruciale nell'identificare i pregiudizi, promuovere l'empatia e favorire processi decisionali inclusivi, offrendo raccomandazioni pratiche per integrare l'equità nelle pratiche di ingegneria del software.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs

IOTEL: A Tool for Generating IoT-enriched Object-Centric Event Logs

Il paper presenta IOTEL, uno strumento che risolve le sfide di integrazione tra dati IoT e log di eventi generici permettendo la creazione sistematica di log di eventi centrati sugli oggetti (OCEL) arricchiti con dati IoT, facilitando così l'analisi dei processi aziendali potenziati dall'Internet delle Cose.

Jia Wei, Xin Su, Chun OuyangTue, 10 Ma💻 cs

← Precedente Successivo →