"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering
该研究通过分析 26 名参与者在复杂 Web 开发任务中的数据,揭示了大语言模型(LLM)在软件工程中的九类常见失败模式,并发现尽管用户尝试通过提示工程缓解问题,但持续的不准确回复仍导致 17 人最终放弃使用,且无帮助回复使放弃概率增加了 11 倍。
173 篇论文
该研究通过分析 26 名参与者在复杂 Web 开发任务中的数据,揭示了大语言模型(LLM)在软件工程中的九类常见失败模式,并发现尽管用户尝试通过提示工程缓解问题,但持续的不准确回复仍导致 17 人最终放弃使用,且无帮助回复使放弃概率增加了 11 倍。
该研究通过文献综述和编码分析,构建了一个包含九类日志坏味(Log Smells)的分类体系,并评估了现有修复工具,旨在帮助开发者编写更高质量的日志代码并指明未来的研究方向。
本文提出了 GateLens,一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示,以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构,并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。
该论文通过基于 30,000 多个真实漏洞修复补丁的实证研究,系统评估了预训练语言模型(PLMs)和大语言模型(LLMs)在七种编程语言及函数与行双粒度下的漏洞检测能力,发现经过指令微调和少样本提示优化的 GPT-4o 在检测多语言及高危漏洞方面显著优于其他模型。
本文通过对 GitHub 上数百万静态类型语言仓库的大规模实证研究,揭示了现实世界中浮点数算术的使用特征,验证了现有基准测试的部分代表性并指出了其不足,同时发布了一个包含 1000 万个真实浮点函数的数据集以推动相关自动推理技术的发展。
该论文提出了 SEER 框架,通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链(CoT),在显著降低计算延迟和内存开销的同时,有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。
本文提出了名为 Preguss 的模块化细粒度框架,通过结合静态分析与大语言模型,利用潜在运行时错误引导验证单元构建与优先级排序,成功实现了对千行代码级大规模程序的高度自动化形式化验证,显著降低了人工验证成本。
该论文通过文献综述、访谈及从业者验证,提出了一种以组织目标为核心的评估框架,旨在解决在实施《通用数据保护条例》(GDPR)隐私设计(PbD)时,如何选择最契合组织需求的工程方法这一挑战。
该论文提出了名为 SkillCraft 的基准测试,旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合(即“技能”)的能力,并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率(最高减少 80% 的 Token 消耗)并增强任务成功率。
本文提出了名为 SiliconMind-V1 的统一多智能体框架,通过集成测试台驱动的验证与推理导向的数据生成,实现了本地微调大模型在无需外部商业工具的情况下,能够以测试时扩展的方式迭代生成、测试并调试 Verilog RTL 设计,且在功能正确性上超越了现有最先进方法。
本文提出了 KernelCraft,这是首个用于评估大语言模型智能体在新兴硬件架构上通过反馈驱动流程自动生成和优化底层内核的基准测试,实验表明该方法能有效降低内核开发成本并生成性能优于传统编译器模板的高质量代码。
本文提出了 FormalRTL,一种通过集成软件参考模型作为形式化规范来指导生成与验证、从而解决工业级数据路径设计挑战的可扩展多智能体框架。
本文旨在将原本仅支持生成顺序代码的 ACETONE 框架扩展至多核架构,通过定义处理器分配问题、调研现有方案,并计划实现调度启发式算法、同步机制模板及最坏情况执行时间评估,以生成并行代码。
本文介绍了 Turn,一种专为代理软件设计的编译型、基于 Actor 的编程语言,它通过认知类型安全、置信度操作符、隔离的 Actor 进程模型、基于能力的身份系统以及编译时模式吸收等五项语言级构造,将大语言模型推理、状态管理和凭证隔离等关键特性从应用层惯例提升为语言级保障。
该论文提出了测试驱动 AI 代理定义(TDAD)方法,通过将代理提示视为编译产物,利用编码代理将行为规范转化为可执行测试并迭代优化提示,结合可见/隐藏测试分割、语义变异测试及规范演进场景等机制,有效解决了工具型大语言代理在生产部署中因提示微调导致的静默回归、工具滥用及策略违规等难以量化的合规性问题。
本文提出了 LLM 委托协议(LDP),这是一种将模型身份、推理画像等属性作为核心原语的 AI 原生通信协议,并通过插件实现与评估证明了其在降低延迟、减少 Token 消耗及提升系统可治理性方面的优势,同时也揭示了未经验证的置信度元数据可能带来的负面影响。
该论文指出生成式人工智能并非软件工程定性研究的万能解决方案,强调需结合具体研究策略与数据特征审慎应用,并系统探讨了其在定性研究中的机遇、挑战及质量评估标准。
本文提出了名为 Arbiter 的框架,通过结合形式化评估规则与多模型扫描技术,成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式,并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。
该研究评估了 AI 代理生成微服务的能力,发现尽管其生成的代码质量较高且能较好遵守 API 契约,但在功能正确性上仍存在不一致性,表明完全自主的微服务生成尚未实现。
本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统,通过将计算机存储层级理论(如虚拟内存和缺页中断)引入大语言模型,实现了对上下文内容的透明驱逐与按需加载,从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。