SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments
本文介绍了 SpecOps,一种专为真实世界 GUI 环境设计的完全自动化 AI 代理测试框架,它通过四个由大语言模型专家代理处理的阶段,在成本和时间效率上优于现有基线,并成功检测出大量真实缺陷。
175 篇论文
本文介绍了 SpecOps,一种专为真实世界 GUI 环境设计的完全自动化 AI 代理测试框架,它通过四个由大语言模型专家代理处理的阶段,在成本和时间效率上优于现有基线,并成功检测出大量真实缺陷。
该论文针对现代软件验证成本高昂且效果不佳的问题,提出利用“影响力稀疏性”将测试转化为无模型搜索任务,并介绍了名为 EZR 的随机学习器,仅需少量样本即可高效引导系统达成目标,从而取代传统的重型求解器。
本文提出了一种基于代码属性图(CPG)和图卷积网络(GCN)的 FP-Predictor 模型,旨在通过捕捉代码结构与语义关系来准确识别静态分析工具中的误报,在 CamBenchCAP 和 CryptoAPI-Bench 数据集上分别取得了 100% 和 96.6% 的准确率,并展现出保守且安全导向的推理能力。
本文总结了在 JISBD 2025 上举办的首届 QuantumX 专题研讨会,该活动汇聚了西班牙顶尖研究团队,探讨了软件工程原则在量子计算领域的应用,促进了社区协作,并系统梳理了量子软件工程的研究主题、开放挑战及未来发展方向。
该论文提出了一种基于大语言模型和多智能体技术的 ESG 报告生命周期管理框架,通过自动化执行识别、测量、报告、参与和改进等阶段,将传统的静态 ESG 报告流程转化为动态、可问责且自适应的可持续发展治理系统。
该论文提出了一种基于项目的 AI 集成敏捷教育平台,作为介于受控研究与真实行业之间的协作研究环境,旨在通过迭代结构、质量门禁及利益相关者参与,高效生成具有可复用背景的实践相关证据,以解决敏捷开发研究中理论滞后与转化困难的问题。
该论文介绍了 LabConstrictor 这一基于 GitHub 的自动化工具,它通过将 Jupyter 笔记本打包为可一键安装的桌面应用程序,解决了生命科学领域开源软件因环境依赖复杂和分发困难而难以普及的问题,从而促进了计算方法的快速应用与复用。
该论文针对现有 AI 智能体开发模式与领域专家知识隐性、动态特性不匹配的问题,提出了“培育优先开发(NFD)”范式,主张通过结构化对话与“知识结晶循环”机制,将智能体从最小化脚手架逐步培育为具备领域专业能力的系统。
该研究通过对 81 名参与团队软件项目的学生进行四轮调查,发现开发者对文本消息的情感感知具有显著的个体内波动性和语句依赖性,且情绪特质与反应性等因素虽能微弱影响正面感知,但整体关联信号较弱,提示在解读情感分析结果时需警惕语境缺失带来的歧义。
本文提出了 STADA 框架,该框架利用时序逻辑(LTLf)规范自动生成自动驾驶代理的多样化测试场景,在显著提升覆盖率和减少模拟次数的同时,有效解决了现有方法在验证形式化安全需求时依赖人工或随机生成导致的效率与完整性不足问题。
本文介绍了 TOSSS(基于 CVE 的双选项安全片段选择)基准,旨在通过让大语言模型在安全与易受攻击的代码片段间进行选择来评估其软件安全能力,该基准具有可扩展性,并在 14 个主流模型上进行了 C/C++ 和 Java 代码的测试。
该论文通过文献综述与针对软件工程从业者的实证调查,论证了人工智能(特别是机器学习和自然语言处理)作为催化剂,能够通过自动化繁琐任务来优化敏捷实践,从而有效应对现代软件需求快速演变的挑战并推动行业创新。
该论文提出了一种分层分析框架,系统回顾了 178 个代码大模型基准测试,揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状,并指出了未来的研究方向。
本文通过对 2500 余篇文献的系统性筛选与 80 篇研究的深入分析,提出了“孪生系统之系统”这一融合系统之系统与数字孪生范式的新概念,并构建了一个兼容现有理论的分类框架以总结该领域的研究现状。
本文提出了一种基于 MeROS 元模型和 V 模型的结构化方法论,旨在通过模型系统工程(MBSE)解决 ROS 机器人系统在语义一致性和结构可追溯性方面的复杂性,从而实现从设计到验证的全生命周期协调管理。
本文针对现有跨语言混合代码检索中存在的语义理解不足、模态融合低效及泛化能力弱等挑战,提出了一种名为 UniCoR 的自监督框架,通过多视角监督对比学习和表示分布一致性学习,实现了语义鲁棒、模态协同且语言无关的统一代码表示,并在多项基准测试中显著超越了现有基线模型。
该论文针对传统安全案例方法难以适应现代 AI 系统动态特性的问题,提出了一套包含新型分类体系、可复用模板及端到端模式的系统化框架,旨在构建可信、可审计且能适应生成式与前沿 AI 系统演变的安全案例。
该论文提出了 SWE-MiniSandbox,一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架,它在保持隔离性的同时显著降低了磁盘占用和环境准备时间,为软件工程智能体的规模化训练提供了高效且可访问的基础。
该论文通过系统性评估发现,尽管大语言模型在智能体工作流中表现出较强的代码修复能力,但这主要源于任务分解而非真正的长上下文推理,当面对 64k 真实长上下文时,模型性能显著下降并出现系统性错误,揭示了当前模型名义上下文长度与实际可用推理能力之间存在巨大差距。
该论文提出了“代码空间理论”(ToCS)基准,通过让 AI 代理在部分可观测条件下探索程序化生成的代码库并维护结构化信念状态,揭示了不同大模型在主动探索能力、信念自我支撑机制以及信念稳定性方面存在显著差异,表明当前代理在构建和维护软件架构理解方面仍面临挑战。