cs.SE articoli | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Questo studio analizza come gli ingegneri del software interagiscono con gli assistenti AI, rivelando che l'incapacità dei modelli linguistici di fornire risposte corrette porta spesso all'abbandono dello strumento, nonostante gli utenti tentino di mitigare tali errori con strategie di scaffolding e chiarimento dei prompt.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Questo studio presenta una tassonomia di nove "log smells" derivata da un'analisi della letteratura scientifica, mappando le relative problematiche sugli strumenti esistenti per identificare le lacune nella ricerca e guidare lo sviluppo di log di migliore qualità.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Il paper introduce GateLens, un agente LLM che utilizza l'Algebra Relazionale come rappresentazione intermedia formale per garantire analisi rapide, trasparenti e affidabili di dati tabulari complessi nel settore automobilistico, superando i limiti dei sistemi basati su Chain-of-Thought e riducendo i tempi di analisi dell'80% senza necessità di esempi few-shot.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Questo studio presenta una valutazione empirica su larga scala che dimostra come i modelli linguistici di grandi dimensioni (LLM), in particolare GPT-4o ottimizzato, superino i modelli linguistici pre-addestrati (PLM) nel rilevamento delle vulnerabilità software multilingue a livello di funzione e di riga, offrendo prestazioni superiori nella identificazione delle minacce più critiche.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Questo studio empirico su larga scala analizza l'uso dell'aritmetica in virgola mobile in milioni di repository GitHub per linguaggi staticamente tipizzati, fornendo un dataset di 10 milioni di funzioni reali e valutando la rappresentatività degli attuali benchmark rispetto al codice di produzione.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Il paper presenta SEER, un framework adattivo che comprime il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni riducendo significativamente la latenza e i costi computazionali senza compromettere l'accuratezza, specialmente nei task di ingegneria del software.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Il paper presenta Preguss, un framework modulare che combina analisi statica e modelli linguistici per generare e raffinare specifiche formali, permettendo la verifica automatizzata di programmi su larga scala (oltre 1000 righe di codice) con una riduzione dell'80,6%-88,9% dello sforzo umano necessario.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Questo studio propone un approccio centrato sugli obiettivi per valutare i metodi di ingegneria dei requisiti per la Privacy by Design, suggerendo che la loro selezione dovrebbe basarsi sul raggiungimento degli scopi organizzativi piuttosto che sulle sole caratteristiche di processo.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Il paper introduce SkillCraft, un benchmark progettato per valutare la capacità degli agenti LLM di astrarre e riutilizzare composizioni di strumenti come "abilità" riutilizzabili, dimostrando che tale approccio riduce drasticamente l'uso dei token e migliora il successo nei compiti complessi.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Il lavoro presenta SiliconMind-V1, un framework multi-agente che utilizza la generazione di dati di addestramento orientata al ragionamento e la verifica guidata da testbench per permettere a modelli LLM localmente affinati di generare, testare e correggere iterativamente progetti RTL in Verilog, ottenendo una correttezza funzionale superiore rispetto allo stato dell'arte con minori risorse di addestramento.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Il paper presenta KernelCraft, il primo benchmark che valuta la capacità di agenti LLM di generare e ottimizzare automaticamente kernel a basso livello per acceleratori emergenti con nuove ISAs, dimostrando come un flusso di lavoro guidato da feedback possa ridurre i costi di sviluppo e produrre kernel validi ed efficienti.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

Il paper presenta FormalRTL, un innovativo framework multi-agente che integra modelli di riferimento software come specifiche formali per guidare la generazione e la verifica di codice RTL, superando le sfide di scalabilità e affidabilità nella sintesi hardware industriale.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Questo lavoro presenta un'estensione del generatore di codice C ACETONE, originariamente limitato all'esecuzione sequenziale, per abilitare la generazione di codice parallelo ottimizzato per architetture multi-core, definendo formalmente il problema dell'assegnazione dei processori e pianificando l'implementazione di euristiche di scheduling e meccanismi di sincronizzazione.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

Il paper presenta Turn, un linguaggio di programmazione compilato e basato su attori progettato per il calcolo agentiche, che integra sicurezza dei tipi cognitiva, un operatore di confidenza, un modello di processo isolato, un sistema di identità basato sulle capacità e l'assorbimento degli schemi a tempo di compilazione per garantire invariants critici come l'isolamento delle credenziali e la validazione dell'output dei modelli linguistici.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Il paper presenta TDAD, una metodologia che tratta i prompt degli agenti AI come artefatti compilati, trasformando le specifiche comportamentali in test eseguibili e affinando iterativamente i prompt per garantire la conformità comportamentale e mitigare i rischi di regressione e spec gaming.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Il documento presenta il LLM Delegate Protocol (LDP), un protocollo di comunicazione nativo per l'intelligenza artificiale che introduce identità dei modelli, tracciamento della provenienza e sessioni governate per abilitare una delega più efficiente e controllabile nei sistemi multi-agente, dimostrando attraverso un'implementazione su JamJet significativi miglioramenti nella latenza e nell'efficienza dei token, sebbene con risultati contrastanti sulla qualità complessiva e la necessità di verifica per i metadati di fiducia.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Questo articolo sostiene che l'intelligenza artificiale generativa non è una soluzione universale per la ricerca qualitativa nell'ingegneria del software, evidenziando la necessità di adattamenti specifici alle diverse strategie di ricerca e analizzando i relativi vantaggi, svantaggi e criteri di qualità.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

Il paper presenta Arbiter, un framework che combina regole di valutazione formale e analisi multi-modello per rilevare pattern di interferenza nei prompt di sistema degli agenti LLM per la codifica, identificando vulnerabilità critiche e dimostrando come l'architettura del prompt influenzi le classi di fallimento.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

Lo studio valuta la capacità di agenti AI di generare microservizi funzionali, rivelando che, sebbene producano codice mantenibile con elevate percentuali di successo nei test di integrazione, la generazione completamente autonoma non è ancora realizzabile a causa di incoerenze nella correttezza e della necessità di supervisione umana.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Il paper introduce Pichay, un sistema di paging su richiesta che tratta la finestra di contesto degli LLM come una gerarchia di memoria virtuale, riducendo drasticamente il consumo di risorse attraverso l'evizione dinamica dei contenuti obsoleti e il ripristino selettivo solo quando necessario.

Tony MasonWed, 11 Ma🤖 cs.AI