Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

该研究提出了名为 Sino-US-DrugQA 的双语基准数据集,通过包含 11,871 个基于中美药监法规的问答对,系统评估了大语言模型在跨司法辖区药物监管合规中的表现,发现尽管模型在单语查询中表现尚可,但在跨辖区对比推理任务上仍存在显著差距,表明当前技术尚需专家复核以支持高风险场景的部署。

Chen, Z., Fu, X., Lu, W.

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一位要在两个不同国家开药店的“跨国经理”。一边是美国的“药监局”(FDA),另一边是中国的“药监局”(NMPA)。这两个机构就像两个性格迥异、规矩完全不同的“严厉考官”,他们手里的《考试手册》(法规)厚得像砖头,而且写的语言还不一样。

现在,你想请一位超级聪明的“人工智能助手”(大语言模型)来帮你快速查阅这些规则,看看能不能同时搞定两边的生意。但是,你心里犯嘀咕:这位 AI 真的懂这两套完全不同的规矩吗?它会不会张冠李戴,把美国的规则套用到中国药品上?

这篇论文就是为了解决这个疑虑而诞生的,它做了一件非常酷的事情:

1. 打造了一场“跨国法规大考”

作者们没有凭空猜测,而是精心准备了一场超级大考试,名叫 Sino-US-DrugQA

  • 题库来源:他们把中美两国最权威的法规书(美国 21 号联邦法规和中国 NMPA 规定)读了一遍,从中提炼出了 11,871 道 选择题。这就像是从两本厚厚的字典里,硬生生抠出了上万道“脑筋急转弯”。
  • 考试形式:题目分两种。
    • 单科考试:只问美国或只问中国(比如:“在美国,这个药需要怎么包装?”)。
    • 综合对比题:这是最难的!要求 AI 同时比较两国(比如:“这个药在美国和中国,包装要求有什么不同?”)。

2. 请来了四位“学霸”来应试

作者找来了目前最火的四位 AI 大佬(GPT-5.2, Gemini-3-flash, Qwen-3-235B, DeepSeek-V3.2),让它们在不看任何参考书、不提前复习的情况下(也就是“零样本”模式),直接硬刚这场考试。

3. 考试结果:有点“偏科”

结果很有意思,就像我们看到的:

  • 单科成绩不错:如果只问美国或只问中国,这些 AI 考得还挺好,正确率在 79% 到 85% 之间。这说明它们当“单科辅导员”是合格的,能帮人快速查资料。
  • 对比题“掉链子”:一旦题目变成“比较中美差异”,成绩就立刻下降了 6% 到 9%
    • 打个比方:这就好比一个学生,背“美国历史”和“中国历史”都能拿 A,但一旦让他做“中美历史对比分析”,他就开始混淆,把美国的总统说成中国的皇帝,或者把两边的法律条文搞混。

4. 核心启示:AI 是“助手”,不是“法官”

这篇论文最后想告诉大家一个重要的道理:

  • AI 可以当“草稿员”:当你需要快速起草一份单国的合规文件,或者查找某个具体条款时,AI 是个好帮手,能省不少力气。
  • AI 不能当“决策者”:当你需要跨越国界做复杂的对比决策时,AI 还容易“翻车”。因为它虽然读过很多书,但还没完全学会如何像人类专家那样,在两个完全不同的逻辑体系间灵活切换和深度推理。

总结一下
这就好比你请了一位博学的“翻译官”来帮你处理跨国生意。他翻译单句很流利,但如果你让他直接做“跨国法律仲裁”,你最好还是让他先打个草稿,然后一定要由人类专家亲自审核一遍,毕竟药品的安全可是人命关天的大事,容不得半点马虎。

这篇论文把这场考试的所有题目和答案都公开了,就像把“考卷”挂在了网上,让全世界的研究者都能来测试自己的 AI 到底够不够格。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →