CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

本文提出了名为 MAPO 的无 Critic 强化学习算法,通过利用判别模型提供的密集过程反馈并结合混合优势估计器,有效解决了主观多轮对话中长程信用分配与训练不稳定的难题,在多个情感智能基准测试中显著提升了模型性能与泛化能力。

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

该研究通过评估 34 个大语言模型在放射学问答任务中的表现,发现引入基于检索的代理推理机制能显著降低模型间的决策离散度并增强跨模型的正确性鲁棒性,表明评估此类系统时不能仅依赖准确率或一致性,还需结合稳定性与潜在临床影响进行综合分析。

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Artificial Intelligence for Climate Adaptation: Reinforcement Learning for Climate Change-Resilient Transport

该论文提出了一种基于强化学习的决策支持框架,用于在气候不确定性下制定长期的城市交通防洪适应策略,并通过哥本哈根案例研究表明,该方法在发现协调的空间与时间适应路径及平衡投资与风险方面优于传统优化方法。

Miguel Costa, Arthur Vandervoort, Carolin Schmidt, João Miranda, Morten W. Petersen, Martin Drews, Karyn Morrisey, Francisco C. Pereira2026-03-09🤖 cs.AI

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI