原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
想象一下,你拥有一个用一种秘密且高度复杂的代码写成的医学教科书图书馆。这些书籍包含着能挽救生命的信息,但它们太难读懂了,以至于普通人连一个句子都理解不了。这项研究的目标是看看两种不同的"AI 翻译器”能否在不丢失重要事实的情况下,将这些书籍解码成通俗易懂的英语。
研究人员测试了两个特定的 AI 模型:
- Mistral:一个经过微调以非常严格地遵循指令的模型。
- Qwen:一个旨在“更深入思考”并通过推理解决复杂问题的模型。
他们要求这些 AI 将 750 份晦涩难懂的医学摘要改写为简单语言,然后将结果与人类专家所做的进行对比。以下是他们发现的内容,使用了一些日常类比:
“翻译者”对决
将这项任务想象成将一份密集、技术性的法律合同翻译成一封友好的信件。你需要保持含义完全一致,但要使其易于阅读。
1. Mistral:谨慎的编辑
Mistral 表现得像一位保守的编辑。它将复杂的医学文本中的生僻、吓人的词汇替换为更简单的词汇,但非常小心地不改变故事原意。
- 结果:它生成的文本易于阅读,且至关重要的是,忠实于原始含义。其“保真度”(即保留事实的程度)几乎与人类专家生成的结果完全相同。
- 策略:它主要只是将行话替换为通俗词汇,并保持句子结构基本不变。它没有试图添加新观点或过度解释;它只是让现有文本更清晰。
2. Qwen:过度解释者
Qwen 表现得像一位热情的老师,想要确保你理解一切。它不仅仅是替换词汇;它试图扩展概念、添加解释并进一步分解内容。
- 结果:虽然它生成的文本非常容易阅读(有时甚至比 Mistral 的更简单),但它偶尔会偏离原始含义的主线。这就像一位老师把概念解释得如此透彻,以至于不小心加入了一点点自己的观点,或者遗漏了原文中的一个小细节。
- 策略:它承担了更多风险。它试图通过“推理”来处理文本,这导致了一些富有创意的简化,但也造成了一些事实上的偏差。
“记分牌”
研究人员使用记分牌来给 AI 评分:
- 可读性:两个 AI 在让文本更易读方面都做得很好。事实上,在让文本变得“简短明了”方面,它们往往比人类做得更好。
- 准确性:这是它们产生差异的地方。Mistral 在 91% 的情况下保持了事实安全(与人类专家一致)。Qwen 在 89% 的情况下保持了事实安全。这 2% 的差异听起来可能很小,但在医学信息的世界里,这意味着 Qwen 意外改变事实或遗漏关键细节的可能性略高。
“工具箱”问题
该研究还考察了我们如何衡量成功。研究人员发现,许多用于评估可读性的工具(例如计算音节或句子长度的公式)实际上是以略微不同的方式衡量同一件事。这就像拥有五把不同的尺子,它们都测量英寸,但刻度标记略有不同。
他们发现,简化医学文本最难的部分不是拆分长句(句法);而是处理专业词汇(词汇)。
- Mistral 通过保守的方式处理词汇:“如果我不确定,我会保留原词或非常小心地替换它。”
- Qwen 通过冒险的方式处理词汇:“我会尝试解释这个词,或者找到完全不同的说法”,这有时会导致混淆。
结论
该论文得出结论,如果你希望 AI 在不改变事实的情况下简化医学文本,Mistral 目前是更安全的选择。它就像一个可靠的翻译者,知道何时停止,不过度解释。
Qwen 也非常有能力,生成的文本可读性很高,但其“推理”风格使其更容易偏离原始事实。该研究表明,对于准确性关乎生死的医学信息而言,“保守编辑”的方法目前优于“创意解释者”的方法。
重要提示:该研究仅考察了这些模型目前使用标准提示词简化文本的效果。它并未测试这些模型在真实医院中的表现,也未建议它们应取代医生或人类审查员。它仅仅比较了它们完成一项特定任务的能力:将晦涩的医学术语转化为通俗易懂的词汇。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。