cs.SE articoli | Gist.Science

Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads

Attraverso due esperimenti sul campo su GitHub, lo studio dimostra che la manipolazione delle metriche di prova sociale, come le stelle e i download, non ha alcun impatto misurabile sulle successive download o sull'attività degli sviluppatori nei pacchetti software open source.

Lucas Shen, Gaurav SoodTue, 10 Ma💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Il paper presenta SWE-Fuse, un framework di addestramento che combina apprendimento da traiettorie prive di issue e RLVR consapevole dell'entropia per superare le descrizioni dei problemi di bassa qualità, ottenendo risultati significativamente superiori rispetto agli agenti basati su LLM esistenti nel benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Questo articolo propone un nuovo approccio ibrido di deep learning spiegabile, basato su una rete 1D-CNN-GRU e tecniche di IA interpretabile, per rilevare, identificare e localizzare i guasti nei sistemi software automobilistici durante la fase di validazione, superando i limiti di trasparenza dei modelli "black-box" e facilitando l'analisi delle cause radice.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

In collaborazione con Hacon, questo studio presenta un approccio basato su agenti AI che genera script di test di regressione direttamente dalle specifiche validate, aumentando significativamente la produttività e riducendo lo sforzo manuale pur mantenendo la supervisione umana necessaria per garantire qualità e manutenibilità.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

Designing Value-Based Platforms: Architectural Strategies Derived from the Digital Markets Act

Questo studio analizza il Digital Markets Act da una prospettiva tecnica per derivare otto strategie architetturali e quindici tattiche che guidano la progettazione di piattaforme digitali orientate a valori fondamentali come equità, contestabilità e scelta dell'utente.

Fabian Stiehle, Markus Funke, Patricia Lago, Ingo WeberTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Il paper introduce PostTrainBench, un benchmark che valuta la capacità degli agenti LLM di automatizzare autonomamente il post-training di modelli linguistici, rivelando progressi significativi ma limitati rispetto ai modelli istruiti ufficialmente e evidenziando gravi rischi di sicurezza come l'hacking della ricompensa e l'uso non autorizzato di dati.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Il paper introduce PromCopilot, un framework basato su modelli linguistici di grandi dimensioni che semplifica il monitoraggio dei sistemi cloud nativi trasformando le domande in linguaggio naturale in query PromQL, sfruttando un grafo della conoscenza per comprendere il contesto del sistema e ottenendo un'accuratezza del 69,1% nel primo benchmark creato per questo compito.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

Getting Python Types Right with RightTyper

Il documento presenta RightTyper, un approccio ibrido innovativo che genera annotazioni di tipo Python precise e affidabili basandosi sul comportamento effettivo del programma, superando i limiti dei metodi statici, dinamici e basati sull'IA con un sovraccarico di esecuzione ridotto a circa il 27%.

Juan Altmayer Pizzorno, Emery D. BergerThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

Questo studio introduce il concetto di "Generazione di Codice a Fonte Etica" (ES-CodeGen), definendone una tassonomia di 11 dimensioni attraverso una revisione della letteratura e un sondaggio tra professionisti, al fine di promuovere pratiche responsabili e sostenibili in tutto il ciclo di vita dei modelli di generazione del codice.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Questo studio presenta la prima valutazione sistematica su soggetti umani che dimostra come i modelli linguistici di grandi dimensioni (LLM) possano assistere efficacemente nella derivazione di specifiche comportamentali Gherkin da normative sulla sicurezza alimentare, pur richiedendo una revisione umana sistematica per correggere omissioni e allucinazioni.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Il paper presenta Compiler.next, un nuovo compilatore basato sulla ricerca progettato per generare automaticamente software funzionante a partire da intenti umani ottimizzando architetture cognitive e parametri, con l'obiettivo di democratizzare lo sviluppo software nell'era dell'ingegneria guidata dall'IA.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Questo studio introduce OODEval, un benchmark manuale e una metrica unificata (CLUE) per valutare le capacità di progettazione orientata agli oggetti di 29 modelli linguistici, rivelando che, sebbene alcuni modelli raggiungano livelli comparabili agli studenti universitari, mostrano ancora significative carenze semantiche rispetto ai migliori progettisti umani.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Questo studio dimostra che le condizioni di valutazione, in particolare il formato delle domande, influenzano le misurazioni di sicurezza dei modelli linguistici più delle architetture di scaffolding stesse, rivelando che i ranking di sicurezza non sono generalizzabili e richiedono test specifici per ogni modello e configurazione.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Questo studio presenta e valuta cinque strategie di ingegneria dei prompt per ridurre le allucinazioni nei modelli linguistici industriali, dimostrando che l'uso di un registro dati potenziato (M4) garantisce risultati coerenti in tutte le prove, mentre le versioni rivisitate di altre metodologie, come la decomposizione dei prompt (M2), mostrano miglioramenti significativi verso procedure più stabili e affidabili.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

Il paper presenta OAuthHub, un framework di sviluppo che utilizza i dispositivi personali degli utenti come intermediari per mitigare l'eccessivo accesso ai dati OAuth, consentendo un controllo granulare delle autorizzazioni e riducendo significativamente il tempo e il codice necessari per gli sviluppatori.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Questo articolo introduce gli AIBOM (Artificial Intelligence Bills of Materials) agentici, un'estensione dinamica degli SBOM basata su un'architettura multi-agente che integra monitoraggio del runtime, ricostruzione dell'ambiente e ragionamento sulle vulnerabilità per garantire una provenienza del software riproducibile e contestualizzata.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Il paper presenta FLA³, una piattaforma di apprendimento federato che integra meccanismi di autenticazione, autorizzazione e contabilità (AAA) conformi a XACML per garantire la sovranità dei dati e la conformità normativa, dimostrando attraverso studi reali e simulati che tale approccio governativo permette di ottenere prestazioni predittive paragonabili all'addestramento centralizzato nel contesto della ricerca sanitaria globale.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Il paper presenta DUCTILE, un sistema di orchestrazione agenziale basato su LLM che automatizza l'analisi ingegneristica adattandosi a cambiamenti nei dati e nei processi sotto la supervisione umana, dimostrando efficacia e conformità in un contesto industriale aerospaziale.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

Il paper introduce MALTA, un framework di valutazione che integra metriche di attività di manutenzione per identificare con maggiore precisione i pacchetti software abbandonati e i rischi associati, superando le limitazioni delle tradizionali metriche di "Technical Lag" che tendono a sottostimare tali pericoli.

Shane K. Panter, Nasir U. EistyThu, 12 Ma💻 cs

← Precedente Successivo →