SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Il paper presenta SWE-Fuse, un framework di addestramento che combina apprendimento da traiettorie prive di issue e RLVR consapevole dell'entropia per superare le descrizioni dei problemi di bassa qualità, ottenendo risultati significativamente superiori rispetto agli agenti basati su LLM esistenti nel benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Questo articolo propone un nuovo approccio ibrido di deep learning spiegabile, basato su una rete 1D-CNN-GRU e tecniche di IA interpretabile, per rilevare, identificare e localizzare i guasti nei sistemi software automobilistici durante la fase di validazione, superando i limiti di trasparenza dei modelli "black-box" e facilitando l'analisi delle cause radice.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

In collaborazione con Hacon, questo studio presenta un approccio basato su agenti AI che genera script di test di regressione direttamente dalle specifiche validate, aumentando significativamente la produttività e riducendo lo sforzo manuale pur mantenendo la supervisione umana necessaria per garantire qualità e manutenibilità.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Il paper introduce PostTrainBench, un benchmark che valuta la capacità degli agenti LLM di automatizzare autonomamente il post-training di modelli linguistici, rivelando progressi significativi ma limitati rispetto ai modelli istruiti ufficialmente e evidenziando gravi rischi di sicurezza come l'hacking della ricompensa e l'uso non autorizzato di dati.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Il paper introduce PromCopilot, un framework basato su modelli linguistici di grandi dimensioni che semplifica il monitoraggio dei sistemi cloud nativi trasformando le domande in linguaggio naturale in query PromQL, sfruttando un grafo della conoscenza per comprendere il contesto del sistema e ottenendo un'accuratezza del 69,1% nel primo benchmark creato per questo compito.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Questo studio presenta la prima valutazione sistematica su soggetti umani che dimostra come i modelli linguistici di grandi dimensioni (LLM) possano assistere efficacemente nella derivazione di specifiche comportamentali Gherkin da normative sulla sicurezza alimentare, pur richiedendo una revisione umana sistematica per correggere omissioni e allucinazioni.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Questo studio introduce OODEval, un benchmark manuale e una metrica unificata (CLUE) per valutare le capacità di progettazione orientata agli oggetti di 29 modelli linguistici, rivelando che, sebbene alcuni modelli raggiungano livelli comparabili agli studenti universitari, mostrano ancora significative carenze semantiche rispetto ai migliori progettisti umani.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Questo studio presenta e valuta cinque strategie di ingegneria dei prompt per ridurre le allucinazioni nei modelli linguistici industriali, dimostrando che l'uso di un registro dati potenziato (M4) garantisce risultati coerenti in tutte le prove, mentre le versioni rivisitate di altre metodologie, come la decomposizione dei prompt (M2), mostrano miglioramenti significativi verso procedure più stabili e affidabili.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Questo articolo introduce gli AIBOM (Artificial Intelligence Bills of Materials) agentici, un'estensione dinamica degli SBOM basata su un'architettura multi-agente che integra monitoraggio del runtime, ricostruzione dell'ambiente e ragionamento sulle vulnerabilità per garantire una provenienza del software riproducibile e contestualizzata.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Il paper presenta FLA³, una piattaforma di apprendimento federato che integra meccanismi di autenticazione, autorizzazione e contabilità (AAA) conformi a XACML per garantire la sovranità dei dati e la conformità normativa, dimostrando attraverso studi reali e simulati che tale approccio governativo permette di ottenere prestazioni predittive paragonabili all'addestramento centralizzato nel contesto della ricerca sanitaria globale.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs