Benchmarking Political Persuasion Risks Across Frontier Large Language Models

该研究通过两项涵盖 19,145 名受访者的调查实验,评估了七款前沿大语言模型在政治议题上的说服能力,发现其整体表现优于传统竞选广告且存在显著模型差异(Claude 最强、Grok 最弱),同时揭示了信息型提示对说服效果的影响因模型而异,并提出了评估大模型潜在说服风险的框架。

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

Survey of Computerized Adaptive Testing: A Machine Learning Perspective

本文从机器学习视角出发,对计算机化自适应测试(CAT)进行了全面综述,深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化,旨在推动心理测量学与机器学习的跨学科融合,以构建更稳健、公平且高效的自适应测试系统。

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

本文介绍了首个将社会学概念“停止点”转化为可复现 NLP 任务的法语标注语料库 SPOT,该数据集包含 4 万多条与虚假信息相关的 Facebook 评论,并通过基准测试证明微调编码器模型在结合上下文元数据后,能显著优于提示式大语言模型,从而有效识别在线对话中常被忽视的普通关键干预。

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

本文提出了 XInsight,一个受心理咨询启发的多智能体框架,通过模拟“探索 - 洞察 - 行动”范式及“推理 - 干预 - 反思”循环,将开放式网络对话转化为标准化的心理治疗记录,并引入 XInsight-Bench 评估基准,从而为数字健康应用提供了更具可解释性、连贯性和临床一致性的心理支持解决方案。

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng WangTue, 10 Ma🤖 cs.LG

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战,论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性,并展望了相关研发需求及该模式在其他学科领域的推广前景。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam BiswasTue, 10 Ma💻 cs