Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

该研究评估了在生物医学文本处理中强制大语言模型提供可机械验证的原文引用(“展示工作”)的效果,发现虽然这能建立自动化审计轨迹并提升部分预测的可信度,但也以牺牲覆盖率为代价,且不同模型在稳定性、有效性和语义支持度上表现出显著差异。

Windisch, P., Weyrich, J., Dennstaedt, F., Zwahlen, D. R., Foerster, R., Schroeder, C.

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给未来的"AI 医生”做一场严格的“考试”,目的是看看当 AI 被要求"出示证据"时,它会不会变得更聪明、更诚实,还是反而变得笨手笨脚。

想象一下,你是一位医院院长,需要招聘一位AI 助手来帮你筛选成千上万份癌症临床试验的摘要,决定哪些病人有资格参加。

1. 核心问题:AI 是“学霸”还是“背书机器”?

以前的 AI 就像是一个记忆力超群但喜欢瞎编的学生。你问它:“这个试验收不收晚期癌症病人?”它可能马上自信地回答:“收!”或者“不收!”。

  • 优点:它回答得很快,而且很多时候是对的。
  • 缺点:你根本不知道它是怎么得出这个结论的。它可能是在“猜”,甚至可能是在“胡编乱造”(幻觉)。如果它错了,你很难发现,因为它没有留下任何“作业痕迹”。

2. 实验设计:给 AI 加一条新规矩

为了测试 AI 是否靠谱,研究人员给三个顶尖的 AI 模型(GPT-5.2, Gemini 3 Flash, Claude Opus 4.5)出了一道题:

  • 题目:阅读癌症试验的标题和摘要,判断试验是否接受“局部癌症”或“转移性癌症”患者。
  • 两组考试
    1. 普通组:只给答案(比如“接受”)。
    2. 出示证据组:不仅要给答案,还必须从原文中抄下一句原话作为证据,证明它为什么这么选。

这就好比老师对学生说:“你可以直接告诉我答案,但如果你想拿高分,你必须把课本里支持你答案的那句话原封不动地抄下来给我看。”

3. 实验结果:证据是双刃剑

A. 覆盖率的下降(AI 变“怂”了)

当要求 AI 必须出示证据时,它变得更谨慎了。

  • 比喻:以前 AI 像个“大胆探险家”,不管有没有把握都敢冲上去给答案。现在它像个“谨慎的侦探”,如果原文里没找到确凿的证据,它就选择放弃回答(Abstain)。
  • 结果:AI 给出的答案总数变少了(覆盖率下降),因为它拒绝了很多它觉得证据不足的情况。这其实是好事,因为它减少了乱猜。

B. 准确率的波动(有的变强,有的变弱)

  • GPT 和 Gemini:在必须出示证据后,它们的准确率反而微升了。就像有些学生,一旦知道要写解题步骤,反而更认真思考,不再乱蒙。
  • Claude:它的准确率反而下降了。这就像有些学生,一旦被迫要写步骤,反而因为太紧张或逻辑混乱,把原本会做的题做错了。
  • 结论:不同的 AI 模型性格不同,强制“出示证据”对它们的影响也不一样。

C. “假证据”陷阱(机械正确 vs. 逻辑正确)

这是论文最精彩的部分。研究人员发现了一个巨大的漏洞:

  • 机械验证:AI 确实从原文里抄了一句话,而且这句话确实在原文里(机械验证通过)。
  • 语义验证:但是,这句话真的能支持它的结论吗
    • 比喻:AI 说:“这个试验不收晚期病人。”然后它抄了一句原文:“本试验针对晚期患者……"(它抄对了,但抄的内容和它的结论完全相反,或者它抄了一句无关的话来凑数)。
    • 结果:大约只有一半到四分之三的“带证据的答案”,其证据真的是支持结论的。也就是说,AI 学会了“作弊”——它知道要抄话,但它抄的话可能并不能证明它的观点。

4. 终极方案:引入“阅卷老师”

既然 AI 可能会“假装有证据”,研究人员又加了一个步骤:让另一个 AI 当“阅卷老师”

  • 这个“老师”不看原文,只看“学生”的答案和它抄的那句话,然后判断:“这句话真的能证明你的答案吗?”
  • 效果:如果只保留那些“老师”认为证据充分的答案,准确率会大幅提升,但剩下的答案数量会更少。
  • 意义:这就像建立了一个分级系统
    • 高信任区:AI 给出了答案 + 证据 + 老师确认证据有效 -> 直接自动化处理,放心使用
    • 低信任区:AI 没给证据,或者证据被老师驳回 -> 转给人工专家去审核

5. 总结与启示

这篇论文告诉我们:

  1. 让 AI“出示证据”很有用:它能让 AI 变得更诚实,减少瞎编乱造,并且让我们知道它为什么这么想。
  2. 但这不是万能药:AI 可能会为了完成任务而“硬凑”证据,或者因为压力而表现变差。
  3. 未来的工作模式:在医疗等高风险领域,我们不能完全依赖 AI 的“直觉”。最好的办法是人机协作
    • 让 AI 先做初筛,并强制它提供“原文证据”。
    • 用另一个 AI 或规则去检查证据是否靠谱。
    • 把那些“证据确凿”的交给系统自动处理;把那些“证据存疑”的交给人类医生去把关。

一句话总结
这就好比在法庭上,法官不再只听律师的口头陈述(AI 直接给答案),而是要求律师必须出示原始文件(AI 给证据),并由陪审团(第二个 AI 或人类)来确认这份文件是否真的能证明律师的观点。虽然这样会慢一点,处理不了所有案子,但判错的概率会大大降低,让决策更加安全可靠。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →