cs.SE 篇论文 | Gist.Science

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

本文介绍了 Lockbox，这是一种专为满足严格企业安全与治理要求而设计的零信任架构，旨在通过全生命周期的显式信任验证、强隔离及最小权限原则，确保敏感云工作负载（包括 AI 辅助处理）的安全处理。

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

本文提出了一种自动化管道，利用大语言模型（LLM）和余弦相似度技术，成功将量子软件中的易失性测试数据集扩展了 54%（新增 25 个案例），并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

The Future of Software Engineering Conferences: A New Zealand Perspective

本文从新西兰视角出发，分析了软件工程会议面临的地理距离、高昂差旅费及日程冲突等参与障碍，并提出了混合参会模式、成本优化选址及治理改革等策略，以促进全球研究社区的公平参与。

Kelly Blincoe, Sherlock A. Licorish, Judith Fuchs, Amjed TahirWed, 11 Ma💻 cs

Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection

本文提出了一种结合符号执行、大语言模型路径优先化与深度学习分类的混合分析框架，通过形式化验证与实验证明，该框架能有效检测传统及 AI 生成的零日恶意软件，在 AI 生成样本上取得了显著优于现有基线的检测准确率。

George Edwards, Mahdi EslamimehrWed, 11 Ma💻 cs

Class Model Generation from Requirements using Large Language Models

本文提出了一种结合大语言模型裁判与人工评估的双重验证框架，通过链式思维提示从自然语言需求自动生成 UML 类图，并验证了包括 GPT-5 在内的多种先进大语言模型在生成质量及评估可靠性方面与人类专家的高度一致性。

Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio FerrariWed, 11 Ma💻 cs

AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations

本文提出了 AgenticCyOps 框架，通过系统性分解多智能体系统的攻击面、确立工具编排与内存管理为核心信任边界，并制定五项防御原则，为符合主流合规标准的 enterprise 级安全运营中心（SOC）工作流提供了纵深防御架构，显著降低了可被利用的信任边界。

Shaswata Mitra, Raj Patel, Sudip Mittal, Md Rayhanur Rahman, Shahram RahimiWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

本文提出了 ToolRosetta 框架，通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测，使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务，从而显著降低了代码复用与部署的人力成本。

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

该研究通过提示工程、多模型交叉验证及专家评估，证实了 ChatGPT 虽能在一定程度上生成逼真的合成系统需求规格说明书，但仍存在矛盾与缺陷，且其自动质量评估无法完全替代专家人工评审。

Alex R. Mattukat, Florian M. Braun, Horst LichterWed, 11 Ma💻 cs

Declarative Scenario-based Testing with RoadLogic

本文提出了 RoadLogic 这一开源工具，它通过结合答案集编程、运动规划及规范监控技术，成功将声明式的 OpenSCENARIO 规范自动转化为符合约束且多样化的可执行自动驾驶仿真场景，从而填补了现有方案在系统化实例化方面的空白。

Ezio Bartocci, Alessio Gambi, Felix Gigler, Cristinel Mateis, Dejan NičkovicWed, 11 Ma🤖 cs.AI

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

本文报告了将需求工程课程系统融入面向专业人士的软件工程教育课程的经验，提出了整合原则并描述了一种基于课程内容映射的系统化方法。

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

本文旨在报告并寻求关于“监管需求工程工件模型（AM4RRE）”的反馈，该模型旨在解决当前合规设计实践中缺乏系统性整合、跨视角协调困难及法律知识密集型等挑战，从而推动将监管要求无缝融入软件工程生命周期以实现“合规即设计”。

Oleksandr KosenkovWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

该论文提出了一种结合检索增强生成（RAG）与大语言模型的嵌入式 C 软件测试自动化方案，通过利用项目特定工件减少幻觉，在工业评估中实现了 100% 的语法正确率和 85% 的运行时验证通过率，有望将测试时间缩短 66% 并达到每小时生成 270 个测试的效率。

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Preparing Students for AI-Driven Agile Development: A Project-Based AI Engineering Curriculum

本文提出了一种将敏捷实践与 AI 工程能力深度融合的项目式课程体系，通过让学生在实际迭代开发中运用生成式 AI 工具并反思人类责任，有效培养了其在 AI 驱动环境下的敏捷开发胜任力。

Andreas Rausch, Stefan Wittek, Tobias Geger, David InkermannWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

该论文提出了 EsoLang-Bench 基准，通过利用缺乏预训练数据且难以被“刷分”的极简主义编程语言，揭示了大型语言模型在标准代码生成任务中表现优异实则依赖记忆，而在需要真正推理能力的任务中表现极差，从而证明现有模型缺乏真正的泛化推理能力。

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

本文通过构建首个交互异味（Interaction Smells）分类体系，对多轮人机协作代码生成中的交互质量缺陷进行了实证研究，并提出了基于不变量感知约束演进的 InCE 多智能体框架以有效抑制此类问题并提升任务成功率。

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Towards a Neural Debugger for Python

该论文提出了“神经调试器”这一新概念，通过微调大语言模型或从头预训练小模型，使其能够像传统调试器一样支持断点设置和步进操作，从而实现对 Python 程序正向执行预测与逆向状态推断的可靠建模，为构建具备模拟调试能力的智能体编程系统奠定了基础。

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel SynnaeveWed, 11 Ma🤖 cs.AI

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

本文提出了 MORCoRA，一种多目标搜索式技术，旨在生成既能提升代码质量又能确保拥有合适且空闲的审查者进行及时审查的代码重构序列。

Lei Chen, Shinpei HayashiTue, 10 Ma💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

本文探讨了人工智能如何通过自动化测试用例生成与验证、动态适应代码变更及实现自愈测试，来解决传统软件测试在覆盖率、效率和成本方面的局限，同时也分析了高质量数据、模型透明度及人机协作等关键挑战。

Mohammad Baqar, Rajat KhandaTue, 10 Ma💻 cs

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

该论文通过构建包含 200 个任务的跨语言数据集，分析了大语言模型在生成代码时的安全性与质量，发现尽管模型能自动化代码创作，但其安全表现因编程语言而异，且普遍未能利用现代编译器更新的安全特性或仍沿用过时方法，凸显了提升模型安全性并融入最新编程最佳实践的必要性。

Mohammed Kharma, Soohyeon Choi, Mohammed AlKhanafseh, David MohaisenTue, 10 Ma🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

本文介绍了 iProg 工具，它通过结合大语言模型与人类反馈的交互式结构化归纳编程方法，将科学数据分析任务分解为数据流图并生成代码，从而在开发速度、代码质量和系统性能上显著优于传统的低代码/无代码方案。

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs