An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法,旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题,从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

本文介绍了与哈肯(Hacon)合作开发的一种基于检索增强多智能体架构的AI协作方案,该方案能够直接从验证后的规范生成系统级测试脚本,显著提升了敏捷回归测试的自动化效率并减少了人工编写工作量,同时强调了清晰规范与人工审查在保障质量中的持续重要性。

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

本文提出了基于大语言模型的 PromCopilot 框架,通过结合知识图谱与协同推理机制,将工程师的自然语言问题自动转化为 Prometheus 查询语言(PromQL),从而简化了云原生在线服务系统中的指标查询过程,并构建了首个 Text-to-PromQL 基准数据集以验证其有效性。

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

本文提出了“道德来源代码生成”(ES-CodeGen)的新概念,旨在通过涵盖从数据收集到部署后全周期的伦理与可持续实践,并基于对 803 篇文献的综述及 32 名从业者的调查,构建了包含 11 个维度(新增代码质量维度)的分类体系,以应对当前 AI 代码生成中存在的许可、隐私、公平及环境影响等伦理挑战。

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

OODEval: Evaluating Large Language Models on Object-Oriented Design

该论文针对大语言模型在面向对象设计能力评估方面的不足,提出了包含人工构建基准与人类评分数据的 OODEval 评测体系及 CLUE 统一指标,通过对 29 个模型的实证研究发现,尽管顶尖模型在语法准确性上表现优异且接近本科生水平,但在语义理解和复杂设计质量上仍存在显著缺陷,且其性能受模型规模、代码专业化程度及任务复杂度等因素的显著影响。

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

本文提出了 FLA³ 平台,通过集成基于属性的访问控制、加密记账及研究范围联邦机制,在保障数据主权与合规性的前提下,实现了跨多国医疗机构的隐私保护联邦学习部署,并验证了其在临床预测性能上与集中式训练相当且能有效执行治理约束。

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

该论文提出了 DUCTILE 框架,一种由大语言模型代理进行自适应编排、工程师负责监督的混合自动化方法,旨在解决航空航天产品开发生态中因工具接口和数据格式频繁变更而导致传统工程分析自动化失效的问题,并验证了其在处理输入偏差时仍能生成符合规范且准确结果的有效性。

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI