DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

该研究利用自然语言处理技术从需求文本中提取结构网络,并通过分子集成任务作为结构同构代理进行受控实验,证实了基于谱的度量指标(相关系数超过 0.95)能有效预测集成工作量,从而填补了架构复杂度分析与需求工程实践之间的关键方法学空白。

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Patch Validation in Automated Vulnerability Repair

该论文指出当前自动漏洞修复系统因忽略包含开发者意图和根因信息的增强测试(PoC+\text{PoC}^+)而高估了补丁有效性,为此构建了PVBench\text{PVBench}基准并发现超 40% 的“正确”补丁在增强测试下失效,进而提出修复工具需在根因分析、规范遵循及意图捕捉三方面进行改进。

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

该研究针对“软件工程 2.0"背景下资源受限的小语言模型(SLM),通过构建多维评估框架,揭示了其在生成架构决策记录时的推理深度差异,发现 30 亿参数以上模型具备较强的零样本能力,而小参数模型虽经微调可提升语义多样性,但往往伴随幻觉风险,且少样本提示对特定中等规模模型具有显著的校准作用。

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

该论文通过构建超过 500 个模型在 15 个基准上的大规模实证研究,首次系统评估了不同代码表示对深度学习补丁正确性评估的影响,发现图表示(如 CPG)表现最佳且与启发式表示结合能显著提升性能,从而为提升自动程序修复工具的实用性提供了关键见解。

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

本文提出了首个自动化框架 AgentRaft,通过结合程序分析与语义推理(包括跨工具调用图构建、测试提示合成及基于法规的运行时污点追踪),有效检测并量化了 LLM 智能体中普遍存在的数据过度暴露风险。

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

本文提出了 KCoEvo 框架,通过构建静态与动态 API 知识图谱将代码迁移任务分解为演化路径检索与路径感知代码生成两个协同阶段,利用真实 API 差异自动生成的合成监督数据训练模型,显著提升了大语言模型在应对 API 变更时的迁移准确性、可控性及执行成功率。

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

该研究通过输出预测任务发现,代码混淆总体上增加了理解代码的时间并降低了准确率,且这种影响在不同编程语言(如 JavaScript 和 Python)中表现出非单调的复杂差异,同时揭示了混淆促使开发者从启发式快速推理转向更审慎的深思熟虑过程,且编程经验对性能的影响主要局限于特定语言内部。

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs