"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

该研究通过分析 26 名参与者在复杂 Web 开发任务中的数据,揭示了大语言模型(LLM)在软件工程中的九类常见失败模式,并发现尽管用户尝试通过提示工程缓解问题,但持续的不准确回复仍导致 17 人最终放弃使用,且无帮助回复使放弃概率增加了 11 倍。

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本文提出了 GateLens,一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示,以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构,并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

该论文通过基于 30,000 多个真实漏洞修复补丁的实证研究,系统评估了预训练语言模型(PLMs)和大语言模型(LLMs)在七种编程语言及函数与行双粒度下的漏洞检测能力,发现经过指令微调和少样本提示优化的 GPT-4o 在检测多语言及高危漏洞方面显著优于其他模型。

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

本文提出了名为 Preguss 的模块化细粒度框架,通过结合静态分析与大语言模型,利用潜在运行时错误引导验证单元构建与优先级排序,成功实现了对千行代码级大规模程序的高度自动化形式化验证,显著降低了人工验证成本。

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

该论文提出了名为 SkillCraft 的基准测试,旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合(即“技能”)的能力,并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率(最高减少 80% 的 Token 消耗)并增强任务成功率。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

本文提出了名为 SiliconMind-V1 的统一多智能体框架,通过集成测试台驱动的验证与推理导向的数据生成,实现了本地微调大模型在无需外部商业工具的情况下,能够以测试时扩展的方式迭代生成、测试并调试 Verilog RTL 设计,且在功能正确性上超越了现有最先进方法。

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本文提出了 KernelCraft,这是首个用于评估大语言模型智能体在新兴硬件架构上通过反馈驱动流程自动生成和优化底层内核的基准测试,实验表明该方法能有效降低内核开发成本并生成性能优于传统编译器模板的高质量代码。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

该论文提出了测试驱动 AI 代理定义(TDAD)方法,通过将代理提示视为编译产物,利用编码代理将行为规范转化为可执行测试并迭代优化提示,结合可见/隐藏测试分割、语义变异测试及规范演进场景等机制,有效解决了工具型大语言代理在生产部署中因提示微调导致的静默回归、工具滥用及策略违规等难以量化的合规性问题。

Tzafrir RehanWed, 11 Ma🤖 cs.AI