Quantifying Hallucinations in Language Language Models on Medical Textbooks

该研究通过两项实验量化了医学教科书问答中大型语言模型的幻觉现象,发现 LLaMA-70B-Instruct 在提供高可信度回答时仍存在约 19.7% 的幻觉率,且幻觉率越低通常对应更高的临床实用性评分。

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 医生”做一场严格的“体检”,目的是看看它们会不会“胡说八道”(也就是所谓的幻觉)。

想象一下,你家里请了一位博学多才的管家(AI 大模型),他说话流利、引经据典,看起来像个医学专家。但是,如果他在给你看病时,把“感冒”说成“癌症”,或者编造一种不存在的药,那后果就太可怕了。

这篇论文就是为了解决这个问题,他们做了一件非常聪明的事:

1. 他们造了一个“防作弊”的考场

以前的考试,AI 可能偷偷背过答案(因为训练数据里就有),所以分数很高,但一遇到新题就露馅。

  • 做法:研究人员从公开的医学教科书里,随机抽取一段段从未被 AI 专门“背诵”过的原文
  • 比喻:这就像老师不让学生背题库,而是现场给一段课文,让学生根据这段课文回答问题。如果学生没读懂课文,瞎编答案,那就是“幻觉”。

2. 第一次实验:给“优等生”做突击检查

他们先拿了一个很出名的开源模型(LLaMA-70B)来做测试。

  • 结果:这个模型看起来非常聪明,98.8% 的回答都写得像模像样,术语专业,语气像医生。
  • 真相:但是,仔细一查,每 5 个回答里就有 1 个是瞎编的(幻觉率约 19.7%)。
  • 启示:这就好比一个学生,作文写得文采飞扬,但里面的事实全是错的。对于不懂医的普通人来说,很难发现这些“美丽的谎言”。

3. 第二次实验:八位“选手”大比拼

他们把这套“防作弊”考题,扔给了 8 个不同大小、不同品牌的 AI 模型,并邀请了真正的临床医生来当裁判。

  • 裁判的任务:不仅要看谁回答得对,还要给回答打分(好、中、差),并指出哪些是瞎编的。
  • 发现一:越大越稳,但也会犯错
    • 模型越大(参数越多),瞎编的概率越低。小模型(10 亿参数)瞎编率高达 27%,大模型(700 亿参数)降到了 9%。
    • 但是! 哪怕是最大的模型,依然会犯错。没有一个是完美的。
  • 发现二:医生更喜欢“诚实”的 AI
    • 医生们发现,那些少编造事实的模型,得分最高。
    • 这就验证了一个道理:在医疗领域,“不说假话”比“说得好听”更重要
  • 发现三:有些题目专门“坑”AI
    • 如果题目是“列出所有禁忌症”或者用否定句(比如“哪种药安全?”),AI 最容易犯晕,编造的内容也最多。这就像让 AI 做“找茬”游戏,它很容易漏掉或者乱指。

4. 核心结论:现在的 AI 还不能独自行医

论文最后得出了一个很严肃的结论:

  • 目前的 AI 就像刚毕业、还没拿到执照的实习医生。他们虽然背了很多书,说话很溜,但绝对不能在没有真人医生监督的情况下,直接给病人看病
  • 最大的成本不是算力,而是“人”:要确保 AI 不胡说八道,必须有人类专家去逐字逐句地检查。这就像为了防错,每生产一个零件都要请一位老工匠亲自打磨,成本极高。

总结

这篇论文告诉我们:AI 在医学上很有潜力,但它现在还是个“容易嘴瓢的学霸”。

如果你看到 AI 给出的医疗建议,哪怕它说得头头是道,也千万不要全信。它可能会在 20% 的情况下,用极其专业的语气,编造一个完全错误的医疗方案。在人类专家亲自审核之前,AI 只能做“助手”,不能做“主治医生”