Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

该论文提出了包含 8000 多道题目的新基准 PubHealthBench,用于评估大语言模型对英国政府公共卫生信息的掌握程度,研究发现尽管最新模型在选择题测试中表现优异甚至超越人类,但在自由回答场景下准确率仍不足 75%,表明在提供自由文本回复时仍需额外的安全保障措施。

Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“英国公共卫生知识大考”**,考官是英国健康安全局(UKHSA),考生则是目前世界上最先进的 24 个大语言模型(LLM,也就是各种 AI 聊天机器人)。

为了让你轻松理解,我们可以把这篇论文的内容想象成一场**“超级医生 vs. 普通路人”的知识竞赛**。

1. 为什么要考?(背景)

想象一下,你生病了,或者想知道怎么预防流感,你不想翻厚厚的政府文件,于是你问 AI 助手:“我该怎么预防?”

  • 风险: 如果 AI 瞎编(也就是“幻觉”),告诉你错误的药方,可能会害了人。
  • 现状: 以前我们考 AI 主要是考它懂不懂医学(比如怎么治病),但很少考它懂不懂**“公共卫生指南”**(比如政府发布的最新防疫规定、疫苗接种时间、食品安全建议等)。这些规定经常变,而且很具体。
  • 目的: 作者们想看看,现在的 AI 到底能不能像一个**“读过所有英国政府健康指南的超级图书管理员”**那样靠谱。

2. 他们是怎么出题的?(方法:PubHealthBench)

作者们没有让人工去手抄几千道题(太累了),而是发明了一个**“自动出题机器”**:

  1. 收集资料: 他们从英国政府网站下载了 687 份最新的 PDF 和网页指南(就像把整个图书馆的参考书都搬来了)。
  2. 切块加工: 把这些长文档切成小块。
  3. 自动出题: 让一个 AI 根据这些小块内容,自动生成8000 多道选择题
    • 比喻: 就像老师把教科书复印下来,然后让另一个 AI 根据课文内容,自动出 8000 道填空题和选择题,用来考其他 AI。
  4. 人工把关: 虽然机器出的题很多,但为了保险,人类专家随机抽查了 800 道题,确保题目没有逻辑错误。

3. 考试怎么考?(两种模式)

这次考试有两种玩法,就像**“做试卷”“自由问答”**的区别:

  • 模式一:选择题 (MCQA)
    • 玩法: 题目是“英国政府建议 65 岁以上人群接种流感疫苗吗?A. 是 B. 否 C. 看情况..."。
    • 特点: AI 只要从选项里选一个。这就像**“开卷考试,但答案就在选项里”**,AI 只要认字、能排除错误选项就行。
  • 模式二:自由问答 (Free Form)
    • 玩法: 题目是“英国政府建议 65 岁以上人群接种流感疫苗吗?请回答。”
    • 特点: 没有选项,AI 必须自己组织语言回答。这就像**“闭卷考试”**,AI 必须完全靠自己的记忆,不能猜,也不能瞎编。

4. 考试成绩怎么样?(结果)

🏆 选择题模式:AI 简直是“学霸”

  • 顶尖表现: 最新的付费 AI(如 GPT-4.5, o1 等)得分超过 90%
  • 对比人类: 普通人在用搜索引擎查资料的情况下,只能得88 分
  • 结论: 在“做选择题”这件事上,顶尖 AI 比普通人查资料还要快、还要准。它们几乎把政府指南背下来了。

📉 自由问答模式:AI 开始“露馅”

  • 成绩下滑: 一旦去掉选项,让 AI 自由发挥,所有模型的分数都大幅下降,最好的模型也没超过 75%
  • 为什么?
    • 幻觉(瞎编): AI 可能会编造一些听起来很专业但政府没说的建议。
    • 遗漏: 漏掉关键的时间点或人群限制。
    • 矛盾: 有时候 AI 给出的建议会和官方指南打架。
  • 比喻: 在选择题里,AI 像个**“记忆力超群的复读机”,看到选项就能认出正确答案;但在自由问答里,它像个“有点自信的实习生”**,虽然知道大概意思,但一开口就容易说错细节,或者把别人的话当成自己的建议说出来。

5. 发现了什么有趣的规律?

  • 大小模型差距大: 那些参数巨大、昂贵的“超级 AI"表现很好;但那些参数小、便宜的“小 AI"在自由问答里表现很差,甚至只有 20-30 分。
  • 对谁更友好? AI 对**“给普通大众看的指南”(比如“怎么洗手”)掌握得最好;但对“给医生看的专业指南”**(比如“复杂的用药方案”)掌握得较差。
    • 这很关键: 因为普通大众最可能直接问 AI 健康建议,所以 AI 在这个领域表现好是个好消息,但也不能掉以轻心。

6. 总结:我们该信任 AI 吗?

这篇论文告诉我们一个**“喜忧参半”**的故事:

  • 好消息: 现在的 AI 确实非常聪明,它们阅读并记住了海量的英国政府健康指南。如果你问它们选择题,它们比普通人查资料还准。
  • 坏消息: 如果你让 AI 像聊天一样自由地回答健康建议,它们仍然会犯错,甚至可能给出危险的建议(比如建议太早或太晚做某事)。

最终建议:
AI 可以作为一个**“超级助手”**,帮你快速找到信息,但在涉及健康这种严肃问题时,不能直接把它的话当成最终医嘱。我们需要给 AI 加上“安全带”(比如让它必须引用原文,或者让人类专家最后审核),才能放心地让它进入我们的日常生活。

一句话总结:
AI 是个读过很多书的“学霸”,但在没有选项提示的自由发挥中,它偶尔还是会“嘴瓢”说错话,所以我们在用它咨询健康问题时,还得留个心眼。