cs.SE articoli | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Questo studio presenta la prima audit sistematica delle "shadow API", rivelando che molti servizi di terze parti che promettono accesso a modelli LLM avanzati utilizzano pratiche ingannevoli, con risultati significativamente diversi e non sicuri rispetto alle API ufficiali, minando così la validità della ricerca scientifica e l'affidabilità per gli utenti.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Il paper presenta LoRA-MME, un ensemble di quattro encoder transformer finetunati con LoRA per la classificazione multi-etichetta dei commenti al codice, che ha raggiunto un alto punteggio F1 ma ha evidenziato un compromesso tra accuratezza semantica ed efficienza computazionale nella competizione NLBSE'26.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Questo articolo presenta MPBMC, un approccio ibrido che utilizza embedding di reti neurali grafiche e statistiche di runtime per raggruppare funzionalmente le proprietà e accelerare la verifica formale tramite model checking limitato.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Questo studio presenta la prima valutazione multidimensionale dell'influenza accademica e della qualità del codice nei benchmark sulla sicurezza degli LLM, rivelando che non esiste una correlazione significativa tra la notorietà degli autori o l'impatto dei lavori e la qualità del codice, e sottolineando la necessità di standard più elevati data la scarsa prontezza e completezza delle risorse open source attuali.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Il paper presenta iScript, un modello linguistico adattato al dominio per la generazione di script Tcl per la progettazione fisica, e iScript-Bench, un benchmark completo, dimostrando come un processo di sintesi dati multi-stadio e un'addestramento su due fasi superino le prestazioni degli LLM generici in questo settore.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Il paper introduce CLARC, un benchmark automatizzato e robusto per la ricerca di codice in C/C++ basato su repository reali, che evidenzia come i modelli attuali falliscano nel comprendere la semantica del codice affidandosi eccessivamente a caratteristiche lessicali quando sottoposti a sfide come l'anonimizzazione degli identificatori o la compilazione in linguaggi di basso livello.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Questo articolo presenta i risultati di un'indagine industriale condotta in Vallonia sullo stato dell'arte dei test di robustezza nei Sistemi Ciber-Fisici, esaminando le pratiche attuali, le sfide e i divari rispetto alle metodologie avanzate in vari settori industriali.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Il paper presenta "Vibe Code Bench", un nuovo benchmark che valuta la capacità dei modelli AI di sviluppare applicazioni web end-to-end da zero, rivelando che le prestazioni attuali sono ancora limitate e identificando l'autotesting come un predittore chiave del successo.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Questo studio valuta le prestazioni di GPT-4, Claude 3 e Gemini nella generazione automatica di scenari BDD, rivelando che Claude 3 ottiene i migliori risultati secondo esperti umani e valutatori LLM, che le tecniche di prompting sono specifiche per modello e che la qualità degli input e l'uso di temperature pari a zero sono determinanti per il successo.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger è un agente AI specializzato che, combinando generazione basata su recupero di documenti e strumenti di parsing e validazione deterministici, trasforma le richieste in linguaggio naturale in file di input MOOSE eseguibili, raggiungendo un tasso di successo del 93% rispetto all'8% ottenuto da un modello linguistico puro.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Il paper introduce FireBench, un benchmark open-source basato su oltre 2.400 campioni reali che valuta la capacità di seguire le istruzioni di 11 modelli LLM in contesti aziendali e API-driven, colmando il divario rispetto alle attuali valutazioni focalizzate sugli assistenti conversazionali.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Questo studio qualitativo analizza 16 casi di uffici per l'open source nel settore pubblico europeo per definire sei archetipi organizzativi e fornire linee guida strategiche su come istituire tali uffici al fine di promuovere l'adozione dell'open source, la sovranità digitale e l'interoperabilità dei servizi.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Questo studio presenta un sistema di generazione automatica di personaggi basato sulle recensioni degli utenti negli store di app VR, che si è dimostrato efficace nel facilitare l'elicitazione dei requisiti di accessibilità e nel promuovere l'empatia tra gli studenti durante un corso di progettazione VR.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Il paper introduce RepoLaunch, il primo agente basato su LLM in grado di automatizzare completamente la risoluzione delle dipendenze, la compilazione e l'estrazione dei risultati dei test per repository in qualsiasi linguaggio e piattaforma, abilitando così la creazione scalare di dataset per l'addestramento e il benchmarking di agenti di ingegneria del software con un intervento umano limitato alla sola progettazione dei task.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Questo studio analizza le motivazioni e i modelli di utilizzo dei contributori di Stack Overflow in diverse culture (Stati Uniti, Cina e Russia) prima dell'era dei LLM, rivelando differenze significative tra comportamenti promozionali e orientamento all'apprendimento per migliorare la partecipazione cross-culturale nell'ingegneria del software.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Questo lavoro propone un framework di benchmarking e una piattaforma unificata per valutare sistematicamente la qualità, la rappresentatività e l'idoneità dei dataset di modelli software, al fine di migliorare la riproducibilità e la comparabilità delle ricerche nell'ingegneria del software guidata dai modelli.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Questo articolo propone un framework generico per valutare le capacità dei modelli linguistici di grandi dimensioni nella generazione di codice per linguaggi specifici di dominio (DSL) basati su vincoli, come OCL e Alloy, dimostrando che, sebbene le prestazioni siano inferiori rispetto a linguaggi generici come Python, tecniche come la riparazione del codice e tentativi multipli possono migliorare significativamente i risultati.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Questo studio presenta la prima valutazione empirica su larga scala della generazione di test unitari da parte di modelli linguistici (LLM) a livello di classe, dimostrando che sebbene le tecniche di prompting basate sul ragionamento migliorino l'affidabilità e la leggibilità rispetto ai metodi tradizionali, le elevate percentuali di fallimenti di compilazione e i difetti di manutenibilità rendono necessari approcci ibridi per risultati pronti alla produzione.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Il paper introduce TrashFuzz, un algoritmo di fuzzing in black-box che genera scenari realistici manipolando la posizione di oggetti stradali comuni per indurre sistemi di guida autonoma a violare le leggi del traffico, dimostrando su Apollo che tali manovre possono portare alla violazione di 15 su 24 norme.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Questo articolo presenta la modellazione formale, la verifica e il testing dell'ambiente di runtime per automi contrattuali (CARE) mediante l'uso di automi temporizzati stocastici e dello strumento Uppaal, al fine di migliorare l'affidabilità di questa applicazione distribuita open-source.

Davide Basile2026-03-05💻 cs

← Precedente Successivo →