HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology
本文介绍了名为 HeartAgent 的自主智能体系统,该系统通过整合定制化工具与多智能体协作机制,在心血管疾病的鉴别诊断中显著提升了准确率与可解释性,并有效辅助临床医生做出更可靠的决策。
1071 篇论文
本文介绍了名为 HeartAgent 的自主智能体系统,该系统通过整合定制化工具与多智能体协作机制,在心血管疾病的鉴别诊断中显著提升了准确率与可解释性,并有效辅助临床医生做出更可靠的决策。
该论文提出了 mAceReason-Math 数据集,这是一个包含 14 种语言、每种语言超 1 万条样本的高质量多语言数学难题集,旨在填补当前强化学习验证奖励(RLVR)领域缺乏非英语训练数据的空白,以推动多语言 RLVR 研究与基准测试。
该论文通过机械可解释性研究揭示了大型语言模型在字符级输入下表现鲁棒性的核心机制是“单词恢复”,即模型能够利用早期层中同属一个标准词元的字符间注意力来重建词元身份,从而维持下游任务性能。
该论文提出利用大语言模型生成简化的 MQM 风格标注来训练 COMET 模型,通过设计 PPbMQM 提示模式,在降低推理成本的同时实现了中 - 英和英 - 德机器翻译质量估计的竞争性表现。
该论文提出了一种利用大语言模型辅助生成可执行规则脚本的管道,将四种隐喻识别协议(MIP/MIPVU、CMDAG、情感检测及明喻识别)转化为透明且可审计的模块化流程,并在七个中文数据集上首次进行了跨协议比较,揭示了协议选择对识别结果的影响远超模型差异,同时证明了该方法在保持完全透明性的同时具备竞争力。
本文介绍了 LuxBorrow 项目,该项目通过对 1999 至 2025 年间 25 万多篇卢森堡语新闻进行基于借词的分析,揭示了卢森堡语作为核心语言在多语混用中保持主导地位的同时,借词现象普遍存在且随时间推移在形态适应和法语来源方面呈现显著增长趋势。
本文提出了“多语言推理健身房”(Multilingual Reasoning Gym),这是一个在原有推理健身房基础上的扩展,通过原生母语者验证和针对性适配,在 14 种语言中程序化地生成了 94 类可验证的推理任务,从而支持大规模跨语言数据生成及多语言推理模型的强化学习与评估研究。
本文提出了名为 PivotAttack 的新型框架,通过利用多臂老虎机算法识别作为预测锚点的“枢轴词集”并采用“由内而外”的扰动策略,显著提升了硬标签文本攻击的查询效率与攻击成功率。
针对数据稀缺的 NPU 内核合成领域,本文提出了名为 EvoKernel 的自进化智能体框架,通过基于价值的记忆检索机制实现从冷启动草稿到持续优化的自动化流程,显著提升了大模型在特定硬件生态中的代码正确率与执行效率。
本文提出了模型,通过实时统计检验动态融合通用价值模型先验与稀疏采样经验均值,在极低方差下构建鲁棒优势基线,从而在数学推理任务中显著超越 GRPO 和 DAPO 并实现更快的收敛。
SiDiaC-v.2.0 是迄今为止规模最大的斯里兰卡语历时语料库,收录了涵盖 1800 至 1955 年出版日期的 185 部文学作品(共 24.4 万词),经过严格的筛选、预处理、版权合规检查及后处理,并借鉴了其他语料库的构建实践,为低资源语言的自然语言处理提供了宝贵的分层分类资源。
本文发布了一个包含英语和德语编目记录及机器可读 GND 本体的大型双语数据集,旨在通过支持本体感知的多标签分类和可复现的评估,推动权威锚定的人工智能在数字图书馆编目中的实际应用。
本文提出了 ARMADA 框架,通过创新的跨模态对齐技术,无需修改或预训练黑盒视觉 - 语言教师模型,即可高效地将知识蒸馏给纯语言学生模型,从而在多种自然语言理解、生成推理及指令微调任务中显著提升性能。
GLM-OCR 是一款参数量仅为 0.9B 的高效紧凑型多模态模型,通过结合 CogViT 视觉编码器与 GLM 语言解码器,并引入多 token 预测机制及两阶段处理流程,在显著降低计算资源消耗的同时,实现了在文档解析、公式转录、表格结构恢复及关键信息提取等任务中的卓越性能,适用于边缘设备部署与大规模生产系统。
本文提出了 LLM2Vec-Gen,一种通过冻结大语言模型骨干并优化可训练特殊令牌来生成代表模型潜在响应的自监督生成式嵌入方法,该方法在无标签数据上实现了 SOTA 性能,并显著提升了嵌入任务的安全性、推理能力及可解释性。
本文介绍了 TOSSS(基于 CVE 的双选项安全片段选择)基准,旨在通过让大语言模型在安全与易受攻击的代码片段间进行选择来评估其软件安全能力,该基准具有可扩展性,并在 14 个主流模型上进行了 C/C++ 和 Java 代码的测试。
该论文通过在 13 个低资源 BEIR 任务上对五种基于大语言模型的伪相关性反馈方法进行受控实验,系统揭示了反馈源与反馈模型各自对检索效果的影响,并指出纯 LLM 生成文本是性价比最高的反馈来源,而基于语料库的反馈在结合强初筛检索器时最为有效。
该论文通过大规模实证研究揭示了 LLM 作为裁判时高一致性可能源于表面启发式而非实质质量的“评估幻觉”现象,并提出了基于领域知识的动态元认知评估框架(MERG),证明在编码化领域引入专家知识能有效提升评估的可靠性与一致性。
本文提出了 IsalGraph,一种将任意有限简单图结构编码为九字符指令字符串的紧凑方法,该方法通过贪心算法实现多项式时间编码,具备无无效状态、同构不变性及与图编辑距离强相关等特性,适用于图相似性搜索、图生成及图条件语言建模等任务。
该论文提出了一种名为"COMIC"的全自动 AI 系统,通过模拟真实制作团队的智能体协作机制,并结合基于 YouTube 喜剧视频语料库训练的 LLM 批评家进行迭代优化,成功生成了质量接近专业水准的短喜剧视频。