cs.SE 篇论文 | Gist.Science

Process-Centric Analysis of Agentic Software Systems

该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹，通过大规模实证研究揭示了不同模型与提示词下的策略差异，并进一步开发了实时监测与干预机制，显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试，旨在通过涵盖六种语言和六类任务的 1800 个评估实例，在避免训练数据污染的同时，从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

该研究利用自然语言处理技术从需求文本中提取结构网络，并通过分子集成任务作为结构同构代理进行受控实验，证实了基于谱的度量指标（相关系数超过 0.95）能有效预测集成工作量，从而填补了架构复杂度分析与需求工程实践之间的关键方法学空白。

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

本文提出了 GraphSkill，这是一种文档引导的层次化检索增强编码框架，通过利用文档层级结构进行检索以及引入自调试智能体来修复逻辑错误，从而显著提升了大语言模型在复杂图推理任务中的代码生成质量与效率。

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

该论文提出了 ResearchEnvBench 基准，旨在评估自主智能体在给定研究代码库和文档时自动构建可运行执行环境的能力，并揭示了当前最先进模型在解决复杂依赖和版本耦合方面存在的显著差距。

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析，构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系，揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

该论文指出当前自动漏洞修复系统因忽略包含开发者意图和根因信息的增强测试（ $\text{PoC}^+$ ）而高估了补丁有效性，为此构建了 $\text{PVBench}$ 基准并发现超 40% 的“正确”补丁在增强测试下失效，进而提出修复工具需在根因分析、规范遵循及意图捕捉三方面进行改进。

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

本文提出了名为 Marauder 的声明式框架，通过定义五种变异表示形式、构建支持选择性执行与组合的变异代数以及建立无损转换流水线，解决了手工构建变异分析工具在可读性、变异保持和执行成本之间的权衡问题。

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

该研究针对“软件工程 2.0"背景下资源受限的小语言模型（SLM），通过构建多维评估框架，揭示了其在生成架构决策记录时的推理深度差异，发现 30 亿参数以上模型具备较强的零样本能力，而小参数模型虽经微调可提升语义多样性，但往往伴随幻觉风险，且少样本提示对特定中等规模模型具有显著的校准作用。

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

该论文提出了一种基于学习排序（LTR）的混合推荐系统，通过利用深度学习技术挖掘 Stack Overflow 中的社交上下文嵌入，帮助开发者在软件社区中高效检索并推荐最相关的软件缺陷解决方案，其在推荐前 10 个答案时达到了约 78% 的准确率。

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

该研究通过实证分析发现，在部署约束下，四种主流大语言模型生成的学术引用存在率极低（最高仅 47.5%），且大量“未解决”的引用实为虚构，因此强烈建议在将其用于软件工程文献综述或工具链前必须进行事后引用验证。

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Echo 是一个通过结合代码图增强上下文检索、自动执行反馈及补丁验证机制，能够高效生成单一高质量问题复现测试用例并显著提升开源方法成功率（达 66.28%）的智能体。

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

该研究通过对二十名软件从业者的定性访谈，揭示了远程与混合工作模式下回归测试如何从依赖面对面互动转向依靠文档、自动化及工具集成来支持异步协作，并强调了标准化报告与可追溯机制在弥补沟通挑战中的关键作用。

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

该研究通过系统综述 43 项文献，揭示了共情在软件工程教育中从边缘软技能向可评估的教学要素转变的趋势，并提出了将其结构化融入课程以培养具备伦理意识、协作能力及包容性设计思维的未来软件工程师的实践路径。

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

该论文通过构建超过 500 个模型在 15 个基准上的大规模实证研究，首次系统评估了不同代码表示对深度学习补丁正确性评估的影响，发现图表示（如 CPG）表现最佳且与启发式表示结合能显著提升性能，从而为提升自动程序修复工具的实用性提供了关键见解。

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

本文提出了首个自动化框架 AgentRaft，通过结合程序分析与语义推理（包括跨工具调用图构建、测试提示合成及基于法规的运行时污点追踪），有效检测并量化了 LLM 智能体中普遍存在的数据过度暴露风险。

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

cs.SE