cs.SE 篇论文 | Gist.Science

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

本文提出了 Once4All，一种通过让大语言模型一次性合成符合语法的可复用项生成器来填充公式骨架，从而在确保语法正确性的同时大幅降低计算成本并成功在 Z3 和 cvc5 求解器中发现 43 个漏洞的 SMT 求解器模糊测试框架。

Maolin Sun, Yibiao Yang, Yuming ZhouFri, 13 Ma🤖 cs.AI

Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

该研究通过文献综述、行业研讨和实证分析，揭示了学术界、工业界与 LLM 生成代码在非功能质量特性（如安全性、可维护性和性能）上的关注错位，并指出单纯依靠提示词优化难以保障实际工程中的代码质量，呼吁将质量保证机制深度集成至 LLM 代码生成流程中。

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

该论文提出了名为 DIVE 的实证驱动方法，通过“先执行真实工具再逆向推导任务”的机制来规模化合成任务的多样性，从而显著提升了智能体在未见工具集和任务场景下的泛化能力，并证明了多样性扩展比单纯增加数据量更能有效改善泛化效果。

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

该论文提出了 CR-Bench 基准数据集和 CR-Evaluator 细粒度评估流程，以解决代码审查智能体缺乏标准化评估的问题，并揭示了在追求高问题检出率时可能因误报过多而降低实际开发效率的权衡困境。

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

该论文提出了名为“思维之问”（QoT）的推理时质量驱动框架，通过将用户目标转化为有序工程步骤与逐步自问验证机制，在 API 设计、数据通信和文件系统等领域显著提升了大模型生成软件的整体质量，尤其对大参数模型和复杂任务效果更为明显。

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

本文提出了专注于 Java 语言的 iSWE Agent，该代理结合了基于规则的静态分析与大模型技术，通过定位和编辑两个子代理实现了在 Java 代码库问题修复上的最先进性能。

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin HirzelFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

该论文针对将抽象的社会、法律、伦理、共情及文化（SLEEC）规范转化为具体可验证要求的差距，提出了一套系统化的操作化流程与框架，旨在推动人工智能代理在高风险领域实现与人类规范及价值观的实质性对齐。

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

该论文提出了一套包含通用提示模板、分层验证和迭代修复的自动化方法，能够以极低的计算成本将复杂的强化学习环境高效转化为高性能实现，并在多个案例中实现了显著的速度提升与语义等价性验证。

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator

该论文介绍了一种基于交互式量子电路模拟器的在线课程，旨在通过即时反馈和自动评估任务降低学习门槛，使不同背景的学生无需量子物理基础即可掌握量子计算。

Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari + 2 more2026-03-11⚛️ quant-ph

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

本文提出了名为 ScenarioFuzz 的基于场景的模糊测试方法，该方法利用历史测试数据与图神经网络优化种子筛选，在显著降低时间成本的同时大幅提升了错误场景的发现效率，并成功在六个自动驾驶系统中发现了 58 个漏洞。

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

LAMBDA: A Large Model Based Data Agent

本文介绍了 LAMBDA，一种基于大语言模型的开源、无代码多智能体数据分析系统，它通过程序员与检查员角色的协同工作、用户直接干预机制以及外部知识集成能力，实现了高效且鲁棒的数据分析，从而降低了数据分析门槛并提升了人机协作效率。

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

该论文利用正交变异性建模和系统建模语言，提出了一种面向利益相关者需求的变异性驱动框架，以系统性地建模和演化量子密钥分发网络架构，从而推动量子系统工程的发展。

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Real-Time BDI Agents: a model and its implementation

本文针对传统 BDI 模型在实时约束下反应迟缓的局限性，提出了一种受实时系统算法启发的新模型，通过显式管理目标、计划与行动的时间及资源约束，实现了智能体在实时领域（如资源收集游戏）中的有效应用与验证。

Andrea Traldi, Francesco Bruschetti, Marco Robol + 3 more2026-03-06💻 cs

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

本文提出了 AUTOTEE，这是首个利用大语言模型自动识别、转换并将敏感函数移植到可信执行环境（TEE）中的方法，通过构建包含 385 个敏感函数的基准数据集，在 Java 和 Python 语言上分别实现了 91.8% 和 84.3% 的高成功率，显著降低了开发者适配 TEE 的门槛。

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

本文提出了首个大规模实证评估框架，通过向真实程序注入未见过的故障并应用语义保持变异来测试大语言模型的故障定位鲁棒性，发现模型在 78% 的情况下因过度依赖与语义无关的语法特征而失效，从而揭示了当前 LLM 在程序逻辑推理方面的根本局限。

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

MioHint: LLM-assisted Mutation for Whitebox API Testing

本文提出了名为 MioHint 的新型白盒 API 测试方法，该方法通过结合静态数据依赖分析与大语言模型（LLM）的代码理解能力，有效解决了传统测试在系统级依赖分析中面临的上下文限制和适应度平台问题，并在 16 个真实 REST API 服务中显著提升了代码覆盖率和变异准确性。

Jia Li, Jiacheng Shen, Yuxin Su + 1 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

本文提出了一种基于视觉语言模型（RVSG）的测试方法，通过生成违反功能与安全要求的人类行为场景，在模拟环境中有效评估了工业自主移动机器人的安全性与不确定性行为。

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

本文提出了名为 RefAgent 的多智能体大语言模型框架，通过规划、执行、测试及自我反思的协同机制实现了端到端的自动软件重构，实验表明其在提升代码质量、消除代码异味及重构成功率方面显著优于单智能体方法和传统工具。

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

Toward architecting self-coding information systems

本文提出了一种名为“自编码信息系统”的代理人工智能新研究方向，该系统能够在运行时自主评估、生成、测试并重新部署源代码以动态调整其结构与行为，从而缩短新功能的上市时间。

Rodrigo Falcão, Frank Elberzhager, Karthik Vaidhyanathan2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

该研究通过眼动追踪实验发现，对于 Java 初学者而言，方法提取重构的效果高度依赖任务难度：在复杂任务中能显著提升理解效率并降低视觉负荷，但在简单任务中反而因增加导航负担而拖慢表现，因此教育者应谨慎对待过早的模块化教学。

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs