"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Questo studio analizza come gli ingegneri del software interagiscono con gli assistenti AI, rivelando che l'incapacità dei modelli linguistici di fornire risposte corrette porta spesso all'abbandono dello strumento, nonostante gli utenti tentino di mitigare tali errori con strategie di scaffolding e chiarimento dei prompt.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Il paper introduce GateLens, un agente LLM che utilizza l'Algebra Relazionale come rappresentazione intermedia formale per garantire analisi rapide, trasparenti e affidabili di dati tabulari complessi nel settore automobilistico, superando i limiti dei sistemi basati su Chain-of-Thought e riducendo i tempi di analisi dell'80% senza necessità di esempi few-shot.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Questo studio presenta una valutazione empirica su larga scala che dimostra come i modelli linguistici di grandi dimensioni (LLM), in particolare GPT-4o ottimizzato, superino i modelli linguistici pre-addestrati (PLM) nel rilevamento delle vulnerabilità software multilingue a livello di funzione e di riga, offrendo prestazioni superiori nella identificazione delle minacce più critiche.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Il paper presenta Preguss, un framework modulare che combina analisi statica e modelli linguistici per generare e raffinare specifiche formali, permettendo la verifica automatizzata di programmi su larga scala (oltre 1000 righe di codice) con una riduzione dell'80,6%-88,9% dello sforzo umano necessario.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Il paper introduce SkillCraft, un benchmark progettato per valutare la capacità degli agenti LLM di astrarre e riutilizzare composizioni di strumenti come "abilità" riutilizzabili, dimostrando che tale approccio riduce drasticamente l'uso dei token e migliora il successo nei compiti complessi.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Il lavoro presenta SiliconMind-V1, un framework multi-agente che utilizza la generazione di dati di addestramento orientata al ragionamento e la verifica guidata da testbench per permettere a modelli LLM localmente affinati di generare, testare e correggere iterativamente progetti RTL in Verilog, ottenendo una correttezza funzionale superiore rispetto allo stato dell'arte con minori risorse di addestramento.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Il paper presenta KernelCraft, il primo benchmark che valuta la capacità di agenti LLM di generare e ottimizzare automaticamente kernel a basso livello per acceleratori emergenti con nuove ISAs, dimostrando come un flusso di lavoro guidato da feedback possa ridurre i costi di sviluppo e produrre kernel validi ed efficienti.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

Extension of ACETONE C code generator for multi-core architectures

Questo lavoro presenta un'estensione del generatore di codice C ACETONE, originariamente limitato all'esecuzione sequenziale, per abilitare la generazione di codice parallelo ottimizzato per architetture multi-core, definendo formalmente il problema dell'assegnazione dei processori e pianificando l'implementazione di euristiche di scheduling e meccanismi di sincronizzazione.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

Il paper presenta Turn, un linguaggio di programmazione compilato e basato su attori progettato per il calcolo agentiche, che integra sicurezza dei tipi cognitiva, un operatore di confidenza, un modello di processo isolato, un sistema di identità basato sulle capacità e l'assorbimento degli schemi a tempo di compilazione per garantire invariants critici come l'isolamento delle credenziali e la validazione dell'output dei modelli linguistici.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Il documento presenta il LLM Delegate Protocol (LDP), un protocollo di comunicazione nativo per l'intelligenza artificiale che introduce identità dei modelli, tracciamento della provenienza e sessioni governate per abilitare una delega più efficiente e controllabile nei sistemi multi-agente, dimostrando attraverso un'implementazione su JamJet significativi miglioramenti nella latenza e nell'efficienza dei token, sebbene con risultati contrastanti sulla qualità complessiva e la necessità di verifica per i metadati di fiducia.

Sunil PrakashWed, 11 Ma🤖 cs.AI