这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
这篇文章就像是一次"AI 疫苗知识大考"。
想象一下,现在很多人遇到不懂的健康问题(比如“疫苗会不会让人变傻?”),第一反应不是去查医生或官方报告,而是直接问手机里的人工智能助手(AI)。但是,这些 AI 真的靠谱吗?它们是会像一位博学的老教授一样辟谣,还是像一位糊涂的传声筒,反而把谣言传得更神?
来自辉瑞(Pfizer)的几位医生和专家做了一项有趣的实验,他们把三个最厉害的 AI 模型(GPT-5、Gemini 2.5 Flash、Claude Sonnet 4)拉到了考场上,专门测试它们面对11 个常见的疫苗谣言时的表现。
🎭 考试场景:两种“考生”心态
为了模拟真实情况,研究人员给 AI 设计了两种不同的提问方式(就像给 AI 戴上了不同的面具):
- “好奇的怀疑者”:就像你半信半疑地问:“听说疫苗有副作用,是真的吗?”
- “固执的坚信者”:就像有人非常笃定地跟 AI 说:“大家都说疫苗有害,这是铁证,你帮我找找证据吧!”(这是一种很难搞的提问,因为 AI 可能会为了讨好用户而顺着他说)。
📝 阅卷老师:谁在打分?
为了公平,他们请了三组“阅卷老师”来给 AI 的回答打分:
- 医学专家组(医生和博士):负责看 AI 说的科学道理对不对,有没有把谣言驳倒。
- 营销专家组(沟通高手):负责看 AI 说的话好不好懂,普通人能不能听明白。
- 机器评分组:用数学公式计算文字的阅读难度(就像给文章定级,是小学生能懂,还是博士才能懂)。
🏆 考试结果:惊喜与遗憾
1. 科学准确性:全员满分(辟谣能力极强)
无论 AI 面对的是哪种提问,也无论它来自哪个公司,它们100% 成功驳斥了所有谣言。
- 比喻:这就像三个不同的“真理卫士”,无论敌人怎么伪装,它们都能准确识别并击退谣言。在医学专家眼里,它们给出的答案科学、准确,没有一个是乱说的。
2. 沟通清晰度:有人“说人话”,有人“掉书袋”
虽然大家都说对了,但怎么说差别很大。
- Gemini 和 GPT-5:表现得像经验丰富的导游,说话既准确又比较接地气,营销专家给它们打了高分。
- Claude:表现得像正在写论文的研究生,虽然内容没错,但用词太深奥,普通人读起来很费劲。
- 特别情况:当面对那个“固执的坚信者”时,所有 AI 的回答都变得更难懂了。就像你越跟一个固执的人讲道理,他越觉得你在用复杂的术语忽悠他,AI 也陷入了这种“越解释越复杂”的怪圈。
3. 阅读难度:像读天书
机器评分显示,AI 生成的文章阅读难度普遍较高(相当于大学甚至研究生水平)。特别是 Claude,它的回答简直像学术论文,普通老百姓读起来非常吃力。
💡 核心启示:AI 是好工具,但需要“翻译官”
这项研究告诉我们一个重要的道理:
- 好消息:现在的 AI 在事实层面已经非常可靠了。如果你问它们疫苗谣言,它们不会撒谎,能给出正确的科学解释。
- 坏消息:AI 在表达层面还不够完美。它们有时候太“高冷”,用词太专业,或者面对固执的人时,没能把复杂的事情简单化。
打个比方:
现在的 AI 就像是一个知识渊博但有点书呆子气的医生。他手里拿着最准确的药方(科学事实),但他写出来的说明书全是专业术语,普通人看不懂。
🚀 未来展望
这篇文章建议,如果我们想把 AI 用在公共卫生领域(比如放在医院官网或健康 APP 里),不能直接把它扔给老百姓用。我们需要给 AI 加上"翻译官"和"过滤器":
- 优化语言:让 AI 学会说“人话”,把复杂的科学道理变成大白话。
- 透明来源:告诉用户这些信息是从哪来的(比如引用官方数据)。
- 人工监督:虽然 AI 很聪明,但还需要人类专家在背后盯着,确保它不会在关键时刻“掉链子”或变得过于自信。
总结一句话:AI 已经能很好地辟谣了,但要想让老百姓听进去,还需要我们帮它把语言变得更温柔、更简单。
在收件箱中获取类似论文
根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。