A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

该研究评估了三种大语言模型在回答中度高热相关临床及物理问题时的表现,发现尽管其平均质量评分处于“可接受”水平,但仍有约四分之一回答质量较差且存在显著的安全风险,表明在缺乏领域专家监督的情况下直接用于临床实践尚不可靠。

Dennstaedt, F., Cihoric, N., Bachmann, N., Filchenko, I., Berclaz, L., Crezee, H., Curto, S., Ghadjar, P., Huebenthal, B., Hurwitz, M. D., Kok, P., Lindner, L. H., Marder, D., Molitoris, J., Notter, M., Rahman, S., Riesterer, O., Spalek, M., Trefna, H., Zilli, T., Rodrigues, D., Fuerstner, M., Stutz, E.

发布于 2026-03-26
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“专家级考试”,只不过考生不是人类医生,而是三个当下最火的人工智能(AI)大模型**。

为了让你轻松理解,我们可以把这场考试想象成:请三位“超级学霸”AI 去解答关于“中度热疗”(一种癌症辅助治疗手段)的难题,然后让一群真正的医学专家来给它们打分。

以下是用大白话和生动的比喻对这篇论文的解读:

1. 背景:AI 很聪明,但它是“偏科生”吗?

现在的 AI(比如 ChatGPT 等)非常厉害,在普通医学问题上甚至能考过执业医师考试。但是,“中度热疗”(用热量来辅助杀死癌细胞)是一个非常冷门、专业且复杂的领域。

  • 比喻:这就好比让一个全科医学天才去回答关于“如何修理某种特定型号的外星飞船引擎”的问题。虽然它懂很多医学知识,但这个领域太窄、资料太少,甚至网上还有很多错误的民间偏方,AI 很容易“一本正经地胡说八道”。

2. 考试过程:怎么考的?

  • 考生(AI):研究团队找了三个当时最先进的 AI 模型(DeepSeek-V3, Llama-3.3, GPT-4o)。
  • 考题:准备了 40 道开放式的难题(22 道关于临床治疗,18 道关于物理技术)。题目不是简单的选择题,而是像医生在现实中遇到的复杂情况,比如“病人不能化疗,热疗该一周做一次还是两次?”
  • 阅卷老师:邀请了 19 位来自世界各地的热疗专家(有的懂临床,有的懂物理)来盲评。他们不知道答案是谁写的,只给答案打分(1 分“非常差”到 5 分“非常好”),并判断这个答案如果用在病人身上会不会出人命(有害性)

3. 考试成绩:看起来还行,实则“暗藏杀机”

  • 平均分:三个 AI 的平均分都在 3 分左右(满分 5 分)。
    • 比喻:这就像考试得了个“中等生”的成绩(C+)。乍一看好像“及格了”,但在医疗领域,“及格”是远远不够的
  • 致命伤
    1. 低分率:大约 25% 的回答被专家评为“差”或“非常差”。
    2. 危险率:大约 15% 到 19% 的回答被专家认为**“如果照做,可能会害死病人”**。
    3. 幻觉:AI 经常会编造不存在的指南、引用不存在的论文,或者把事实搞反。

4. 精彩(或惨烈)的案例分析

论文里举了几个生动的例子,展示了 AI 的“翻车”现场:

  • 案例一(做得好的)
    问:“骨头上有个肿瘤,该不该加热疗?”

    • AI 表现:有两个 AI 回答得很棒,它们知道这种病对放疗很敏感,不需要加热疗,直接放疗就行。这就像学霸做对了题。
    • 对比:第三个 AI 却建议“看情况加”,结果被专家打低分,因为它可能误导医生去用不必要的治疗。
  • 案例二(彻底翻车)
    问:“市面上有哪些热疗设备?”

    • AI 表现:三个 AI 全都没答对,或者答得很乱。
    • 比喻:这就像问“现在市面上有哪些品牌的手机”,结果 AI 开始编造一些不存在的品牌,或者把冰箱说成手机。对于这种有标准答案的问题,AI 居然“集体失忆”了。
  • 案例三(最危险的“一本正经胡说八道”)
    问:“不能化疗的宫颈癌病人,热疗一周做几次?”

    • AI 表现
      • 有的 AI 编造了一个不存在的“荷兰研究”来支持它的观点。
      • 有的 AI 虽然逻辑通顺,但结论是错的(建议一周两次,而标准是一周一次)。
    • 后果:如果医生照着这个做,可能会给病人带来不必要的痛苦或治疗失败。

5. 为什么 AI 会考这么差?

  • 资料太少:热疗是个小众领域,网上的高质量数据很少,而且混杂着很多伪科学。AI 学习的时候就像在“垃圾堆”里找知识,学了很多错误的东西。
  • 缺乏标准:不像感冒发烧有明确的指南,热疗的很多细节还在探索中,AI 很难找到“标准答案”来学习。

6. 结论:现在能用吗?

结论很明确:现在绝对不能直接让 AI 给病人做热疗决策!

  • 比喻:现在的 AI 就像一个**“刚毕业、有点小聪明但经验不足的实习生”。你可以让它帮你查查热疗是什么(做科普),但绝对不能让它开药方或制定治疗方案**。
  • 风险:如果你不是热疗专家,你根本看不出 AI 哪里在胡说八道。它可能用非常专业的术语把你骗得团团转,然后给出一个危险的建议。

总结

这篇论文给所有想直接用 AI 看病的人泼了一盆冷水:在像“中度热疗”这样专业、冷门且复杂的领域,目前的 AI 还太不靠谱。 它们虽然能写出像模像样的文章,但里面可能藏着致命的错误。

给普通人的建议:如果你或家人涉及这类治疗,一定要听真人专家的意见,千万别把 AI 的回答当成救命稻草。AI 现在只能是个“参考书”,还不能当“医生”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →