Process-Centric Analysis of Agentic Software Systems
该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹,通过大规模实证研究揭示了不同模型与提示词下的策略差异,并进一步开发了实时监测与干预机制,显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。
175 篇论文
该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹,通过大规模实证研究揭示了不同模型与提示词下的策略差异,并进一步开发了实时监测与干预机制,显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。
DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。
该研究利用自然语言处理技术从需求文本中提取结构网络,并通过分子集成任务作为结构同构代理进行受控实验,证实了基于谱的度量指标(相关系数超过 0.95)能有效预测集成工作量,从而填补了架构复杂度分析与需求工程实践之间的关键方法学空白。
本文提出了 GraphSkill,这是一种文档引导的层次化检索增强编码框架,通过利用文档层级结构进行检索以及引入自调试智能体来修复逻辑错误,从而显著提升了大语言模型在复杂图推理任务中的代码生成质量与效率。
该论文提出了 ResearchEnvBench 基准,旨在评估自主智能体在给定研究代码库和文档时自动构建可运行执行环境的能力,并揭示了当前最先进模型在解决复杂依赖和版本耦合方面存在的显著差距。
该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析,构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系,揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。
该论文指出当前自动漏洞修复系统因忽略包含开发者意图和根因信息的增强测试()而高估了补丁有效性,为此构建了基准并发现超 40% 的“正确”补丁在增强测试下失效,进而提出修复工具需在根因分析、规范遵循及意图捕捉三方面进行改进。
本文提出了名为 Marauder 的声明式框架,通过定义五种变异表示形式、构建支持选择性执行与组合的变异代数以及建立无损转换流水线,解决了手工构建变异分析工具在可读性、变异保持和执行成本之间的权衡问题。
该研究针对“软件工程 2.0"背景下资源受限的小语言模型(SLM),通过构建多维评估框架,揭示了其在生成架构决策记录时的推理深度差异,发现 30 亿参数以上模型具备较强的零样本能力,而小参数模型虽经微调可提升语义多样性,但往往伴随幻觉风险,且少样本提示对特定中等规模模型具有显著的校准作用。
该论文提出了一种基于学习排序(LTR)的混合推荐系统,通过利用深度学习技术挖掘 Stack Overflow 中的社交上下文嵌入,帮助开发者在软件社区中高效检索并推荐最相关的软件缺陷解决方案,其在推荐前 10 个答案时达到了约 78% 的准确率。
该研究通过实证分析发现,在部署约束下,四种主流大语言模型生成的学术引用存在率极低(最高仅 47.5%),且大量“未解决”的引用实为虚构,因此强烈建议在将其用于软件工程文献综述或工具链前必须进行事后引用验证。
Echo 是一个通过结合代码图增强上下文检索、自动执行反馈及补丁验证机制,能够高效生成单一高质量问题复现测试用例并显著提升开源方法成功率(达 66.28%)的智能体。
该研究通过对二十名软件从业者的定性访谈,揭示了远程与混合工作模式下回归测试如何从依赖面对面互动转向依靠文档、自动化及工具集成来支持异步协作,并强调了标准化报告与可追溯机制在弥补沟通挑战中的关键作用。
该研究通过系统综述 43 项文献,揭示了共情在软件工程教育中从边缘软技能向可评估的教学要素转变的趋势,并提出了将其结构化融入课程以培养具备伦理意识、协作能力及包容性设计思维的未来软件工程师的实践路径。
该论文通过构建超过 500 个模型在 15 个基准上的大规模实证研究,首次系统评估了不同代码表示对深度学习补丁正确性评估的影响,发现图表示(如 CPG)表现最佳且与启发式表示结合能显著提升性能,从而为提升自动程序修复工具的实用性提供了关键见解。
本文提出了首个自动化框架 AgentRaft,通过结合程序分析与语义推理(包括跨工具调用图构建、测试提示合成及基于法规的运行时污点追踪),有效检测并量化了 LLM 智能体中普遍存在的数据过度暴露风险。
本文提出了 KCoEvo 框架,通过构建静态与动态 API 知识图谱将代码迁移任务分解为演化路径检索与路径感知代码生成两个协同阶段,利用真实 API 差异自动生成的合成监督数据训练模型,显著提升了大语言模型在应对 API 变更时的迁移准确性、可控性及执行成功率。
该研究通过输出预测任务发现,代码混淆总体上增加了理解代码的时间并降低了准确率,且这种影响在不同编程语言(如 JavaScript 和 Python)中表现出非单调的复杂差异,同时揭示了混淆促使开发者从启发式快速推理转向更审慎的深思熟虑过程,且编程经验对性能的影响主要局限于特定语言内部。
该研究基于对巴西和葡萄牙四支 AI 团队的 25 次访谈,运用扎根理论揭示了团队多样性在识别偏见、培养同理心、应对系统性歧视、促进包容性决策、防范偏见以及拓展问题解决思维等六个关键方面对 AI 系统开发的重要作用。
本文介绍了 IOTEL 工具,旨在通过基于 OCEL 模式系统化地整合物联网数据与现有事件日志,解决 IoT 增强型业务流程分析中数据抽象层级差异及来源分离的挑战。