Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“英国公共卫生知识大考”**，考官是英国健康安全局（UKHSA），考生则是目前世界上最先进的 24 个大语言模型（LLM，也就是各种 AI 聊天机器人）。

为了让你轻松理解，我们可以把这篇论文的内容想象成一场**“超级医生 vs. 普通路人”的知识竞赛**。

1. 为什么要考？（背景）

想象一下，你生病了，或者想知道怎么预防流感，你不想翻厚厚的政府文件，于是你问 AI 助手：“我该怎么预防？”

风险： 如果 AI 瞎编（也就是“幻觉”），告诉你错误的药方，可能会害了人。
现状： 以前我们考 AI 主要是考它懂不懂医学（比如怎么治病），但很少考它懂不懂**“公共卫生指南”**（比如政府发布的最新防疫规定、疫苗接种时间、食品安全建议等）。这些规定经常变，而且很具体。
目的： 作者们想看看，现在的 AI 到底能不能像一个**“读过所有英国政府健康指南的超级图书管理员”**那样靠谱。

2. 他们是怎么出题的？（方法：PubHealthBench）

作者们没有让人工去手抄几千道题（太累了），而是发明了一个**“自动出题机器”**：

收集资料： 他们从英国政府网站下载了 687 份最新的 PDF 和网页指南（就像把整个图书馆的参考书都搬来了）。
切块加工： 把这些长文档切成小块。
自动出题： 让一个 AI 根据这些小块内容，自动生成8000 多道选择题。
- 比喻： 就像老师把教科书复印下来，然后让另一个 AI 根据课文内容，自动出 8000 道填空题和选择题，用来考其他 AI。
人工把关： 虽然机器出的题很多，但为了保险，人类专家随机抽查了 800 道题，确保题目没有逻辑错误。

3. 考试怎么考？（两种模式）

这次考试有两种玩法，就像**“做试卷”和“自由问答”**的区别：

模式一：选择题 (MCQA)
- 玩法： 题目是“英国政府建议 65 岁以上人群接种流感疫苗吗？A. 是 B. 否 C. 看情况..."。
- 特点： AI 只要从选项里选一个。这就像**“开卷考试，但答案就在选项里”**，AI 只要认字、能排除错误选项就行。
模式二：自由问答 (Free Form)
- 玩法： 题目是“英国政府建议 65 岁以上人群接种流感疫苗吗？请回答。”
- 特点： 没有选项，AI 必须自己组织语言回答。这就像**“闭卷考试”**，AI 必须完全靠自己的记忆，不能猜，也不能瞎编。

4. 考试成绩怎么样？（结果）

🏆 选择题模式：AI 简直是“学霸”

顶尖表现： 最新的付费 AI（如 GPT-4.5, o1 等）得分超过 90%。
对比人类： 普通人在用搜索引擎查资料的情况下，只能得88 分。
结论： 在“做选择题”这件事上，顶尖 AI 比普通人查资料还要快、还要准。它们几乎把政府指南背下来了。

📉 自由问答模式：AI 开始“露馅”

成绩下滑： 一旦去掉选项，让 AI 自由发挥，所有模型的分数都大幅下降，最好的模型也没超过 75%。
为什么？
- 幻觉（瞎编）： AI 可能会编造一些听起来很专业但政府没说的建议。
- 遗漏： 漏掉关键的时间点或人群限制。
- 矛盾： 有时候 AI 给出的建议会和官方指南打架。
比喻： 在选择题里，AI 像个**“记忆力超群的复读机”，看到选项就能认出正确答案；但在自由问答里，它像个“有点自信的实习生”**，虽然知道大概意思，但一开口就容易说错细节，或者把别人的话当成自己的建议说出来。

5. 发现了什么有趣的规律？

大小模型差距大： 那些参数巨大、昂贵的“超级 AI"表现很好；但那些参数小、便宜的“小 AI"在自由问答里表现很差，甚至只有 20-30 分。
对谁更友好？ AI 对**“给普通大众看的指南”（比如“怎么洗手”）掌握得最好；但对“给医生看的专业指南”**（比如“复杂的用药方案”）掌握得较差。
- 这很关键： 因为普通大众最可能直接问 AI 健康建议，所以 AI 在这个领域表现好是个好消息，但也不能掉以轻心。

6. 总结：我们该信任 AI 吗？

这篇论文告诉我们一个**“喜忧参半”**的故事：

好消息： 现在的 AI 确实非常聪明，它们阅读并记住了海量的英国政府健康指南。如果你问它们选择题，它们比普通人查资料还准。
坏消息： 如果你让 AI 像聊天一样自由地回答健康建议，它们仍然会犯错，甚至可能给出危险的建议（比如建议太早或太晚做某事）。

最终建议：
AI 可以作为一个**“超级助手”**，帮你快速找到信息，但在涉及健康这种严肃问题时，不能直接把它的话当成最终医嘱。我们需要给 AI 加上“安全带”（比如让它必须引用原文，或者让人类专家最后审核），才能放心地让它进入我们的日常生活。

一句话总结：
AI 是个读过很多书的“学霸”，但在没有选项提示的自由发挥中，它偶尔还是会“嘴瓢”说错话，所以我们在用它咨询健康问题时，还得留个心眼。

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

1. 为什么要考？（背景）

2. 他们是怎么出题的？（方法：PubHealthBench）

3. 考试怎么考？（两种模式）

4. 考试成绩怎么样？（结果）

🏆 选择题模式：AI 简直是“学霸”

📉 自由问答模式：AI 开始“露馅”

5. 发现了什么有趣的规律？

6. 总结：我们该信任 AI 吗？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Dataset Construction)

2.2 评估设置 (Evaluation Setup)

2.3 人类基线 (Human Baseline)

3. 主要贡献 (Key Contributions)

4. 关键结果 (Key Results)

4.1 多项选择题 (MCQA) 表现

4.2 自由文本 (Free Form) 表现

5. 意义与结论 (Significance & Conclusion)

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

1. 为什么要考？（背景）

2. 他们是怎么出题的？（方法：PubHealthBench）

3. 考试怎么考？（两种模式）

4. 考试成绩怎么样？（结果）

🏆 选择题模式：AI 简直是“学霸”

📉 自由问答模式：AI 开始“露馅”

5. 发现了什么有趣的规律？

6. 总结：我们该信任 AI 吗？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Dataset Construction)

2.2 评估设置 (Evaluation Setup)

2.3 人类基线 (Human Baseline)

3. 主要贡献 (Key Contributions)

4. 关键结果 (Key Results)

4.1 多项选择题 (MCQA) 表现

4.2 自由文本 (Free Form) 表现

5. 意义与结论 (Significance & Conclusion)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers