CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation
本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。
7497 篇论文
本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。
本文提出了 Whisper-CD,一种无需训练的多负对比解码框架,通过对比干净音频与三种声学扰动生成的负向 logits,有效解决了 Whisper 模型在长语音识别中的幻觉、重复和遗漏问题,显著降低了词错率并提升了推理速度。
本文提出了名为 MAPO 的无 Critic 强化学习算法,通过利用判别模型提供的密集过程反馈并结合混合优势估计器,有效解决了主观多轮对话中长程信用分配与训练不稳定的难题,在多个情感智能基准测试中显著提升了模型性能与泛化能力。
FlashPrefill 是一种通过瞬时模式发现与动态阈值机制,在无需排序或累积开销的情况下高效识别多种稀疏注意力模式,从而在长序列(256K)上实现 27.78 倍加速、且在短序列(4K)上仍能保持 1.71 倍加速的超快速预填充框架。
本文提出了一种名为 CoE 的训练-free 多模态摘要框架,通过层级事件图(HEG)引导的“事件链”进行结构化推理,有效解决了现有方法对特定领域监督的依赖、跨模态对齐弱以及时序建模扁平化等问题,并在多个数据集上显著超越了现有最先进基线。
该论文提出了“对话式需求响应”(CDR)机制,利用代理人工智能构建双向多智能体架构,使聚合商与产消者通过自然语言进行透明、可解释的灵活互动,从而在保持自动化扩展性的同时增强用户自主权并确保持续参与。
本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。
该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。
本文提出了一种名为 DeCoST 的两阶段学习框架,通过解耦离散路径选择与连续服务时间分配,在求解带时间窗和可变利润的定向问题(OPTWVP)时,显著提升了求解质量与推理效率。
本文提出了 HiPP-Prune 框架,通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略,利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。
该研究通过评估 34 个大语言模型在放射学问答任务中的表现,发现引入基于检索的代理推理机制能显著降低模型间的决策离散度并增强跨模型的正确性鲁棒性,表明评估此类系统时不能仅依赖准确率或一致性,还需结合稳定性与潜在临床影响进行综合分析。
本文介绍了一种基于朗之万动力学以避免过拟合的神经网络实现,该网络通过接受多个模糊认知图作为输入来学习因果模式并反演输出节点值,从而提供修改准则以优化决策,并在多个数据集上评估了其性能。
本文提出了名为 Stem 的新型即插即用稀疏模块,通过结合位置衰减策略和输出感知度量来重新思考因果信息流,从而在降低计算复杂度和预填充延迟的同时,显著提升了长上下文大语言模型的准确性。
该论文提出了一种基于强化学习的决策支持框架,用于在气候不确定性下制定长期的城市交通防洪适应策略,并通过哥本哈根案例研究表明,该方法在发现协调的空间与时间适应路径及平衡投资与风险方面优于传统优化方法。
本文提出了一种名为 GMM-PIELM 的概率自适应采样框架,通过利用加权期望最大化算法学习物理分布以动态调整 PIELM 的核函数中心,从而在无需昂贵梯度优化的情况下,显著提升了刚性偏微分方程(如具有激波和边界层的对流扩散方程)的求解精度与效率。
本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
该论文提出了一种包含熵计算、Platt 校准及强化学习微调的三阶段流水线,旨在高效地训练大语言模型在推理时直接输出可解释且校准良好的不确定性估计,从而克服传统后处理方法的计算开销与校准不足问题。
这项研究通过对比实验发现,虽然基于大语言模型(LLM)的消息生成方式在用户感知帮助度上显著优于模板化方法,但结合上下文多臂老虎机(Bandit)的优化策略并未带来额外收益,表明在个性化健康行为干预中,对用户输入的语境化回应比单纯的结构化探索或生成灵活性更为关键。
本文提出了 SAHOO 框架,通过目标漂移指数、约束保持检查和回归风险量化三大机制,在递归自我改进过程中有效监测并控制对齐漂移,从而在代码生成、数学推理和事实性等多个领域显著提升模型性能的同时确保安全性与对齐稳定性。