Process-Centric Analysis of Agentic Software Systems

Il paper introduce Graphectory, un metodo basato su grafi per analizzare in modo sistematico le traiettorie di esecuzione degli agenti software, rivelando come la complessità dei processi influenzi il successo nella risoluzione dei problemi e dimostrando che il monitoraggio in tempo reale con interventi correttivi può migliorare significativamente i tassi di risoluzione riducendo al contempo la lunghezza delle traiettorie.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Questo studio dimostra che le metriche spettrali estratte da reti strutturali di requisiti testuali, validate attraverso un esperimento con integrazioni molecolari, prevedono con elevata accuratezza lo sforzo di integrazione, colmando un divario metodologico tra l'analisi della complessità architetturale e l'ingegneria dei requisiti.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Il paper introduce ResearchEnvBench, un nuovo benchmark che valuta la capacità degli agenti autonomi di sintetizzare ambienti di esecuzione per codice di ricerca, rivelando significative lacune nelle attuali soluzioni nello sviluppo di dipendenze e nell'adattamento delle versioni software.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Questo studio empirico analizza 13.602 issue di sistemi di Intelligenza Artificiale Agentica per derivare una tassonomia di 37 tipi di guasti, 13 sintomi osservabili e 12 cause radice, rivelando come le discrepanze tra la generazione probabilistica e i vincoli deterministici siano alla base di frequenti fallimenti sistemici.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

Questo studio introduce PVBench, un benchmark che rivela come oltre il 40% delle patch di riparazione automatica delle vulnerabilità, considerate corrette dai test di base, falliscano quando sottoposti a test avanzati (PoC⁺), evidenziando la necessità per i sistemi AVR di migliorare l'analisi delle cause profonde, l'aderenza alle specifiche e la cattura delle intenzioni degli sviluppatori.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Questo studio presenta un framework di valutazione multidimensionale per analizzare le capacità di ragionamento di dieci Small Language Models nella generazione di registri di decisioni architetturali, rivelando che i modelli superiori a 3 miliardi di parametri eccellono nello zero-shot, mentre quelli più piccoli traggono maggior beneficio dal fine-tuning e che l'elevata diversità semantica spesso si traduce in allucinazioni.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Questo studio presenta la prima analisi estesa che dimostra come le rappresentazioni del codice basate su grafi superino sistematicamente altri metodi nel valutare l'accuratezza delle patch automatizzate, offrendo soluzioni pratiche per ridurre il sovraccarico di debug e migliorare l'affidabilità degli strumenti di riparazione del software.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Il paper presenta AgentRaft, un framework automatizzato che combina analisi del programma e ragionamento semantico per rilevare il rischio di sovraesposizione dei dati negli agenti LLM, identificando violazioni della privacy in oltre il 57% dei percorsi di interazione tra strumenti reali.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Il paper presenta KCoEvo, un framework potenziato da grafi della conoscenza che migliora l'accuratezza e l'esecuzione del codice evolutivo suddividendo il task di migrazione in recupero di percorsi evolutivi e generazione di codice informato, superando i limiti dei modelli linguistici di grandi dimensioni nel gestire le modifiche alle API di terze parti.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Lo studio analizza come l'offuscamento del codice influenzi la comprensione umana attraverso un compito di previsione degli output, rivelando che tale pratica aumenta generalmente i tempi di ragionamento e riduce l'accuratezza, ma con effetti non monotoni che variano tra Python e JavaScript e che spostano i partecipanti da un ragionamento euristico rapido a processi più deliberati.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs