Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Questo studio presenta la prima audit sistematica delle "shadow API", rivelando che molti servizi di terze parti che promettono accesso a modelli LLM avanzati utilizzano pratiche ingannevoli, con risultati significativamente diversi e non sicuri rispetto alle API ufficiali, minando così la validità della ricerca scientifica e l'affidabilità per gli utenti.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Questo studio presenta la prima valutazione multidimensionale dell'influenza accademica e della qualità del codice nei benchmark sulla sicurezza degli LLM, rivelando che non esiste una correlazione significativa tra la notorietà degli autori o l'impatto dei lavori e la qualità del codice, e sottolineando la necessità di standard più elevati data la scarsa prontezza e completezza delle risorse open source attuali.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Il paper introduce RepoLaunch, il primo agente basato su LLM in grado di automatizzare completamente la risoluzione delle dipendenze, la compilazione e l'estrazione dei risultati dei test per repository in qualsiasi linguaggio e piattaforma, abilitando così la creazione scalare di dataset per l'addestramento e il benchmarking di agenti di ingegneria del software con un intervento umano limitato alla sola progettazione dei task.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Questo studio analizza le motivazioni e i modelli di utilizzo dei contributori di Stack Overflow in diverse culture (Stati Uniti, Cina e Russia) prima dell'era dei LLM, rivelando differenze significative tra comportamenti promozionali e orientamento all'apprendimento per migliorare la partecipazione cross-culturale nell'ingegneria del software.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Questo articolo propone un framework generico per valutare le capacità dei modelli linguistici di grandi dimensioni nella generazione di codice per linguaggi specifici di dominio (DSL) basati su vincoli, come OCL e Alloy, dimostrando che, sebbene le prestazioni siano inferiori rispetto a linguaggi generici come Python, tecniche come la riparazione del codice e tentativi multipli possono migliorare significativamente i risultati.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Questo studio presenta la prima valutazione empirica su larga scala della generazione di test unitari da parte di modelli linguistici (LLM) a livello di classe, dimostrando che sebbene le tecniche di prompting basate sul ragionamento migliorino l'affidabilità e la leggibilità rispetto ai metodi tradizionali, le elevate percentuali di fallimenti di compilazione e i difetti di manutenibilità rendono necessari approcci ibridi per risultati pronti alla produzione.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs