CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

本文提出了名为 MAPO 的无 Critic 强化学习算法,通过利用判别模型提供的密集过程反馈并结合混合优势估计器,有效解决了主观多轮对话中长程信用分配与训练不稳定的难题,在多个情感智能基准测试中显著提升了模型性能与泛化能力。

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

本文提出了 LIT-RAGBench 基准,该基准通过构建包含逻辑、整合、表格、推理和拒答五个维度的数据集,系统评估了大型语言模型在检索增强生成(RAG)场景下的综合能力,并揭示了当前模型在相关任务中尚未达到 90% 整体准确率的现状。

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

该论文通过多语言审计发现,尽管主流大语言模型在印度、东亚及东南亚等地区的广泛社会议题上与公众意见基本一致,但在宗教领域(尤其是少数群体观点)存在显著的文化对齐偏差和刻板印象强化问题,且现有的轻量级干预措施无法完全消除这些差距。

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

本文提出了名为 EpisTwin 的神经符号架构,通过构建以用户为中心的个人知识图谱,结合多模态大模型与代理协调机制,有效解决了个人 AI 因数据孤岛和向量检索局限而导致的语义理解与推理难题,并借助合成基准 PersonalQA-71-100 验证了其在可信赖个人智能领域的优越性能。

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下,全量微调与低秩适应(LoRA)等策略在持续学习中的表现,揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境,并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

该研究通过构建包含道义情态的新数据集,发现大语言模型在道义条件推理中的表现优于描述性条件,且其错误模式与人类相似的“匹配偏差”而非“确认偏差”更为一致,揭示了模型推理能力的情境依赖性及与人类认知偏见的平行性。

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

PONTE 是一种人机协同框架,通过闭环验证与自适应机制,结合偏好建模、基于结构化 XAI 产物的生成以及多重验证模块,为不同用户生成既个性化又可信的自然语言解释,有效解决了现有可解释人工智能方法中缺乏个性化及大模型易产生幻觉的问题。

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI