Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

该研究通过无监督领域预训练模拟大语言模型的经验积累,利用机器人格量表量化其性格特征,发现“表达型通才”与“抑制型专才”表现最佳,且社会性特质受抑反而能提升复杂推理能力,从而揭示了训练数据语言特征对模型性格及性能的因果影响,为“人格工程”提供了新路径。

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

本文提出了名为 MAPO 的无 Critic 强化学习算法,通过利用判别模型提供的密集过程反馈并结合混合优势估计器,有效解决了主观多轮对话中长程信用分配与训练不稳定的难题,在多个情感智能基准测试中显著提升了模型性能与泛化能力。

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI