Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

该论文提出了包含 8000 多道题目的新基准 PubHealthBench,用于评估大语言模型对英国政府公共卫生信息的掌握程度,研究发现尽管最新模型在选择题测试中表现优异甚至超越人类,但在自由回答场景下准确率仍不足 75%,表明在提供自由文本回复时仍需额外的安全保障措施。

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

本文提出了名为 CounselBench 的大规模基准测试,通过 100 名心理健康专家对多种大语言模型在真实求助场景下的回答进行多维度评估与对抗性测试,揭示了模型在提供安全、个性化且具临床谨慎性的心理健康问答方面存在的系统性缺陷及现有自动评估的局限性。

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL