Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

该研究通过文献综述、行业研讨和实证分析,揭示了学术界、工业界与 LLM 生成代码在非功能质量特性(如安全性、可维护性和性能)上的关注错位,并指出单纯依靠提示词优化难以保障实际工程中的代码质量,呼吁将质量保证机制深度集成至 LLM 代码生成流程中。

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

该论文提出了名为 DIVE 的实证驱动方法,通过“先执行真实工具再逆向推导任务”的机制来规模化合成任务的多样性,从而显著提升了智能体在未见工具集和任务场景下的泛化能力,并证明了多样性扩展比单纯增加数据量更能有效改善泛化效果。

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

本文提出了 AUTOTEE,这是首个利用大语言模型自动识别、转换并将敏感函数移植到可信执行环境(TEE)中的方法,通过构建包含 385 个敏感函数的基准数据集,在 Java 和 Python 语言上分别实现了 91.8% 和 84.3% 的高成功率,显著降低了开发者适配 TEE 的门槛。

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR