From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

该论文展示了大语言模型生成的标签与人类标注在空间范畴化任务中高度一致,并据此提出了一种扩展“拓扑关系图片系列”(TRPS)数据集的方法,通过新增42个场景显著提升了场景覆盖度,为构建涵盖数十种语言和数百个场景的大规模空间数据集奠定了基础。

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

该论文提出了一种名为"LLM 作为元裁判”的可扩展框架,通过利用大语言模型对真实数据进行受控语义退化来生成合成评估数据集,从而替代昂贵且耗时的人工标注,并在机器翻译、问答和摘要任务中验证了该方法在评估指标验证方面能作为人类判断的高相关性可靠替代方案。

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

本文针对现有基准在评估大语言模型自动化网络安全威胁情报(CTI)研究能力方面的不足,提出了基于真实专家工作流和分析师中心指标的"CyberThreat-Eval"基准,揭示了当前模型在处理复杂细节和区分信息真伪方面的局限性,并展示了结合外部知识库与人类反馈的改进方案。

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL