原作者： P. Bilha Githinji, Aikaterini Melliou, Zeming Liang, Lian Zhang, Peiwu Qin

发布于 2026-05-07

📖 1 分钟阅读☕ 轻松阅读

原作者： P. Bilha Githinji, Aikaterini Melliou, Zeming Liang, Lian Zhang, Peiwu Qin

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下，你拥有一个用一种秘密且高度复杂的代码写成的医学教科书图书馆。这些书籍包含着能挽救生命的信息，但它们太难读懂了，以至于普通人连一个句子都理解不了。这项研究的目标是看看两种不同的"AI 翻译器”能否在不丢失重要事实的情况下，将这些书籍解码成通俗易懂的英语。

研究人员测试了两个特定的 AI 模型：

Mistral：一个经过微调以非常严格地遵循指令的模型。
Qwen：一个旨在“更深入思考”并通过推理解决复杂问题的模型。

他们要求这些 AI 将 750 份晦涩难懂的医学摘要改写为简单语言，然后将结果与人类专家所做的进行对比。以下是他们发现的内容，使用了一些日常类比：

“翻译者”对决

将这项任务想象成将一份密集、技术性的法律合同翻译成一封友好的信件。你需要保持含义完全一致，但要使其易于阅读。

1. Mistral：谨慎的编辑
Mistral 表现得像一位保守的编辑。它将复杂的医学文本中的生僻、吓人的词汇替换为更简单的词汇，但非常小心地不改变故事原意。

结果：它生成的文本易于阅读，且至关重要的是，忠实于原始含义。其“保真度”（即保留事实的程度）几乎与人类专家生成的结果完全相同。
策略：它主要只是将行话替换为通俗词汇，并保持句子结构基本不变。它没有试图添加新观点或过度解释；它只是让现有文本更清晰。

2. Qwen：过度解释者
Qwen 表现得像一位热情的老师，想要确保你理解一切。它不仅仅是替换词汇；它试图扩展概念、添加解释并进一步分解内容。

结果：虽然它生成的文本非常容易阅读（有时甚至比 Mistral 的更简单），但它偶尔会偏离原始含义的主线。这就像一位老师把概念解释得如此透彻，以至于不小心加入了一点点自己的观点，或者遗漏了原文中的一个小细节。
策略：它承担了更多风险。它试图通过“推理”来处理文本，这导致了一些富有创意的简化，但也造成了一些事实上的偏差。

“记分牌”

研究人员使用记分牌来给 AI 评分：

可读性：两个 AI 在让文本更易读方面都做得很好。事实上，在让文本变得“简短明了”方面，它们往往比人类做得更好。
准确性：这是它们产生差异的地方。Mistral 在 91% 的情况下保持了事实安全（与人类专家一致）。Qwen 在 89% 的情况下保持了事实安全。这 2% 的差异听起来可能很小，但在医学信息的世界里，这意味着 Qwen 意外改变事实或遗漏关键细节的可能性略高。

“工具箱”问题

该研究还考察了我们如何衡量成功。研究人员发现，许多用于评估可读性的工具（例如计算音节或句子长度的公式）实际上是以略微不同的方式衡量同一件事。这就像拥有五把不同的尺子，它们都测量英寸，但刻度标记略有不同。

他们发现，简化医学文本最难的部分不是拆分长句（句法）；而是处理专业词汇（词汇）。

Mistral 通过保守的方式处理词汇：“如果我不确定，我会保留原词或非常小心地替换它。”
Qwen 通过冒险的方式处理词汇：“我会尝试解释这个词，或者找到完全不同的说法”，这有时会导致混淆。

结论

该论文得出结论，如果你希望 AI 在不改变事实的情况下简化医学文本，Mistral 目前是更安全的选择。它就像一个可靠的翻译者，知道何时停止，不过度解释。

Qwen 也非常有能力，生成的文本可读性很高，但其“推理”风格使其更容易偏离原始事实。该研究表明，对于准确性关乎生死的医学信息而言，“保守编辑”的方法目前优于“创意解释者”的方法。

重要提示：该研究仅考察了这些模型目前使用标准提示词简化文本的效果。它并未测试这些模型在真实医院中的表现，也未建议它们应取代医生或人类审查员。它仅仅比较了它们完成一项特定任务的能力：将晦涩的医学术语转化为通俗易懂的词汇。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：Mistral 与 Qwen 在生物医学文本简化中可读性与准确性的分歧策略

问题陈述

获取易于理解的卫生信息对公共卫生和知情决策至关重要，然而面向患者的生物医学材料经常超出推荐的阅读水平。虽然大语言模型（LLM）为文本简化提供了可扩展的解决方案，但它们面临一个持续的权衡：提高可读性往往以事实不准确、语义漂移和不当省略为代价。现有研究表明，生物医学文本需要进行领域适应，但结果存在冲突，部分研究显示通用模型的表现优于专用模型。此外，目前尚缺乏对不同的 LLM 架构如何在无需微调的情况下，在最大化可读性与保持话语保真度之间的张力进行导航的全面理解。

方法论

本研究实证比较了两种中等规模的通用 LLM——Mistral-Small 3 24B（指令微调）和Qwen 2.5 32B（推理增强）——在生物医学文本简化任务中的表现。

数据：主要基准由 750 篇生物医学摘要及其对应的人工简化文本组成。次要未 curated 数据集涵盖传统中医（TCM）和肿瘤学，用于测试鲁棒性。
系统：本研究评估了四种 LLM 配置（两个模型 × 两种温度设置：严格 $T=0.2$ 和灵活 $T=0.4$ ），以人类专家基准作为对照。
提示：采用标准化的零样本提示，指示模型逐句进行适配，而非总结。提示明确禁止内容提炼，并要求模型自我报告所应用的具体转换（例如：术语替换、省略细节）以及每项变更的理由。
评估：使用包含 21 项指标的综合套件进行评估，分类如下：
- 可读性：Dale-Chall、Gunning Fog、FKGL、SMOG、ARI、Flesch 阅读易度指数和 SARI。
- 准确性/话语保真度：BERTScore、语义相似度（LLM 嵌入）、ROUGE-L、SacreBLEU、LDA 主题、词汇匹配和难词比例。
- 安全性：毒性分类。
分析：进行了统计比较（Welch's t 检验），以及相关性分析和主成分分析（PCA）回归，以考察可读性与准确性指标之间的关系。

主要结果

1. 系统性能与 SARI 分数

两个模型均优于之前的编码器 - 解码器基线（T5, BART）。Mistral 表现出更优越的性能，SARI 分数分别为 42.46（灵活）和 42.37（严格），接近 GPT-4.1-mini 的表现。QWen 得分较低，严格模式下为 38.38，灵活模式下为 37.84。

2. 可读性与准确性的权衡

Mistral：表现出“温和”的词汇简化策略。它在多项指标上实现了可读性提升，同时保持了 0.91 的 BERTScore，在统计上与人类表现无显著差异。它显示出高词汇保留率，并对专业术语采取保守处理。
QWen：实现了更高的可读性（在 Flesch-Kincaid 和 Flesch 阅读易度指数上排名最佳），但显示出可读性与准确性之间的脱节。其 BERTScore 为 0.89，在统计上低于人类基准。QWen 的方法涉及更激进的词汇替换和概念扩展，导致更大的语义位移。

3. 指标相关性与冗余

冗余：在可读性指标之间发现了强烈的功能冗余（SMOG、FKGL、ARI 和 Flesch 的相关系数 $\ge 0.7$ ），表明减少指标集已足以进行评估。
分歧策略：相关性分析显示，与 QWen（ $[-0.2, 0.1]$ ）相比，Mistral 的可读性与准确性指标耦合更紧密（系数 $[0.2, 0.4]$ ）。这表明 Mistral 能同时优化两个目标，而 QWen 的策略似乎更加脱节。
词汇控制：研究发现，词汇控制而非句法重构是主要障碍。Mistral 对专业词汇的保守保留与准确性呈强相关，而 QWen 的激进替换与语义完整性呈负相关。

4. 自我报告的理据

对模型自我报告的变更分析证实了其架构理念：

Mistral 主要依赖“术语/行话替换”和“省略不必要的细节”，在输入范围内保守运作。
QWen 频繁进行“添加解释”和“抽象/概括”，反映出一种更具探索性的方法，但这可能导致语义退化。

意义与主张

本文主张，在零样本设置下，与**推理增强模型（QWen）**相比，指令微调模型（Mistral） 可能为生物医学文本简化提供更稳健的“最佳平衡点”。研究强调：

架构优势：Mistral 的指令微调似乎倾向于一种保守策略，在词汇简化与语义保真度之间取得平衡，在无需微调的情况下实现了人类级别的话语保真度。
指标洞察：研究提供了证据，表明可读性指标存在强烈的冗余，并阐明了可读性与准确性之间的张力，提示当前的指标套件可能无法完全捕捉推理增强模型简化过程的细微差别。
实用基线：研究结果更新了生物医学文本简化的实用基线，表明对于通用 LLM 而言，主要挑战在于词汇控制，而非句法重构。

作者总结道，虽然 QWen 具备能力并取得了高可读性分数，但其对词汇搜索空间的激进探索可能危及语义完整性。相比之下，Mistral 的温和方法为可扩展、易获取的生物医学信息提供了更可靠的平衡。研究承认了局限性，指出需要在更广泛的 LLM 和领域中进行进一步评估，以明确界定架构差异。

Making Knowledge Accessible: Divergent Readability-Accuracy Strategies of Mistral and QWen in Biomedical Text Simplification