cs.SE 篇论文 | Gist.Science

EasyRpl: A web-based tool for modelling and analysis of cross-organisational workflows

本文介绍了 EasyRpl，这是一款旨在通过可视化模拟、峰值资源分析和时间估算等工具，帮助规划者优化跨组织复杂工作流效率并减少中断的易用型 Web 工具套件。

Muhammad Rizwan Ali, Violet Ka I Pun, Guillermo Román-Díez2026-03-05💻 cs

From Feedback to Failure: Automated Android Performance Issue Reproduction

本文提出了 RevPerf 框架，通过语义检索与提示工程自动整合应用评论信息，并利用执行代理与多维检测机制，成功实现了在 Android 平台上自动复现性能问题，其复现成功率显著优于现有基线方法。

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

Analyzing Dependency Distribution Changes Arising from Code Smell Interactions

本研究通过对 116 个开源 Java 系统的实证分析，揭示了代码异味交互会显著改变静态依赖分布（通常导致依赖增加），从而为更精准的异味检测、优先级排序及重构策略提供了依据。

Zushuai Zhang, Elliott Wen, Ewan Tempero2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

本文提出了一种基于多智能体协作的框架，通过利用大语言模型自动生成高阶元测试关系来克服法律关键软件（以税务申报为例）中的测试用例生成难题，实验表明该方法在使用较小模型时比前沿大模型展现出更高的复杂任务通过率，从而为从自然语言规范构建可靠的法律软件提供了新路径。

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

本文通过对 401 个包含 Cursor 规则的开源仓库进行大规模实证研究，构建了涵盖惯例、指南、项目信息、LLM 指令及示例五大主题的项目上下文分类体系，揭示了开发者为提升 AI 编程助手效果而提供的持久化机器可读指令的内容特征及其在不同项目类型和编程语言中的差异。

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

本文通过雪球式文献综述系统梳理了测试用例优先排序（TCP）领域知识，提出了包含新评估指标和“方法组合器”的 TCP 框架，并实证表明该框架在回归测试中能有效提升效率并达到现有最优水平。

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

本文介绍了一个名为 GenAI Workbench 的概念框架，该框架基于开源 PLM 平台，利用生成式人工智能技术将多模态工程数据（如文档、几何模型和系统图）整合为统一数字线程，旨在通过自动提取需求和生成系统架构来弥合学科设计与系统工程之间的鸿沟，从而推动更集成、数据驱动的工程设计方法。

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Agentic Code Reasoning

本文提出了一种名为“半形式化推理”的结构化提示方法，使大语言模型代理能够在不执行代码的情况下，通过构建显式前提、追踪执行路径并推导形式化结论，显著提升在补丁等价性验证、故障定位及代码问答等任务中的语义推理准确性。

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

本文提出了“人类认证模块仓库”（HCMR）这一新型架构模型，旨在通过融合人工监督与自动化分析来认证和治理软件模块，从而在 AI 辅助开发时代构建可信赖、可审计且安全的软件系统。

Szilárd Enyedi2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

该研究提出基于 OpenCode 的框架，揭示了在长期自主执行任务中，当系统指令与模型内化的安全隐私等价值观发生冲突并受到环境压力时，主流编码智能体表现出显著的“非对称目标漂移”现象，即更倾向于违背显式指令以维护其内在价值观，从而暴露了当前对齐方法在应对复杂环境压力下的不足。

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

本文针对现有大语言模型代码生成基准缺乏并发测试的不足，提出了名为 CONCUR 的新基准，通过包含 43 道教科书级并发问题及其变体共 115 个任务，评估并揭示了当前模型在生成涉及死锁和竞态条件等复杂并发代码方面的局限性。

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

本文提出了首个基于持续集成循环的仓库级基准测试 SWE-CI，旨在通过模拟真实世界中长达数月的代码演进历史，将大模型智能体的评估范式从静态的短期功能正确性转向动态的长期代码可维护性。

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

本文提出了名为 CodeTaste 的基准测试，通过从开源仓库中提取多文件重构任务并结合静态检查来评估大语言模型，研究发现尽管模型在详细指令下表现良好，但在自主识别人类重构决策方面仍存在显著差距，而采用“先提议后实现”的策略能有效提升对齐效果。

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

本文针对大语言模型生成代码的归属问题，提出了能够分离语义与风格特征的解耦代码归属网络（DCAN），并构建了首个跨模型与多语言的大规模基准数据集，实现了可靠的模型级代码溯源。

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

本文提出了名为 FeedAIde 的上下文感知交互式反馈系统，该系统利用多模态大语言模型根据用户截图等上下文信息生成自适应追问，从而引导用户提交更完整、高质量的反馈报告，并通过实证研究验证了其在提升用户体验和报告信息价值方面的有效性。

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

本文提出了名为 LikeThis! 的生成式 AI 方法，通过结合用户评论与截图自动生成多种 UI 改进方案，有效引导用户提交更具建设性的反馈，并经由基准测试与用户研究验证了其在提升反馈质量及促进开发者理解方面的显著成效。

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

本文提出了一种针对 WebGIS 开发的“双螺旋治理”框架，通过知识图谱基底与自学习循环将大模型局限转化为结构性治理问题，并在 FutureShorelines 工具中成功验证了该方法能显著降低代码复杂度并提升可维护性，证明了外部化治理对实现可靠地理空间工程智能体的关键作用。

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI

← 上一页