DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

该论文针对现有时间序列异常检测评估指标在点级覆盖偏差、近漏报不敏感、误报惩罚不足及阈值依赖等方面存在的局限性,提出了一种基于检测语义的分区策略与全阈值谱聚合方法,构建了名为 DQE 的新型评估指标,以实现更稳定、判别力强且可解释的综合评估。

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

本文提出了一种名为 FedSCS-XGB 的联邦服务器中心代理 XGBoost 协议,用于基于可穿戴传感器数据的脊柱损伤患者持续健康监测,该协议在保持 XGBoost 核心结构优势的同时实现了分布式训练,其性能在理论分析和实证评估中均能接近集中式训练结果(差距小于 1%)。

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

该研究通过评估 34 个大语言模型在放射学问答任务中的表现,发现引入基于检索的代理推理机制能显著降低模型间的决策离散度并增强跨模型的正确性鲁棒性,表明评估此类系统时不能仅依赖准确率或一致性,还需结合稳定性与潜在临床影响进行综合分析。

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI