Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下，你是一位要在两个不同国家开药店的“跨国经理”。一边是美国的“药监局”（FDA），另一边是中国的“药监局”（NMPA）。这两个机构就像两个性格迥异、规矩完全不同的“严厉考官”，他们手里的《考试手册》（法规）厚得像砖头，而且写的语言还不一样。

现在，你想请一位超级聪明的“人工智能助手”（大语言模型）来帮你快速查阅这些规则，看看能不能同时搞定两边的生意。但是，你心里犯嘀咕：这位 AI 真的懂这两套完全不同的规矩吗？它会不会张冠李戴，把美国的规则套用到中国药品上？

这篇论文就是为了解决这个疑虑而诞生的，它做了一件非常酷的事情：

作者们没有凭空猜测，而是精心准备了一场超级大考试，名叫 Sino-US-DrugQA。

题库来源：他们把中美两国最权威的法规书（美国 21 号联邦法规和中国 NMPA 规定）读了一遍，从中提炼出了 11,871 道 选择题。这就像是从两本厚厚的字典里，硬生生抠出了上万道“脑筋急转弯”。
考试形式：题目分两种。
- 单科考试：只问美国或只问中国（比如：“在美国，这个药需要怎么包装？”）。
- 综合对比题：这是最难的！要求 AI 同时比较两国（比如：“这个药在美国和中国，包装要求有什么不同？”）。

作者找来了目前最火的四位 AI 大佬（GPT-5.2, Gemini-3-flash, Qwen-3-235B, DeepSeek-V3.2），让它们在不看任何参考书、不提前复习的情况下（也就是“零样本”模式），直接硬刚这场考试。

结果很有意思，就像我们看到的：

单科成绩不错：如果只问美国或只问中国，这些 AI 考得还挺好，正确率在 79% 到 85% 之间。这说明它们当“单科辅导员”是合格的，能帮人快速查资料。
对比题“掉链子”：一旦题目变成“比较中美差异”，成绩就立刻下降了 6% 到 9%。
- 打个比方：这就好比一个学生，背“美国历史”和“中国历史”都能拿 A，但一旦让他做“中美历史对比分析”，他就开始混淆，把美国的总统说成中国的皇帝，或者把两边的法律条文搞混。

这篇论文最后想告诉大家一个重要的道理：

AI 可以当“草稿员”：当你需要快速起草一份单国的合规文件，或者查找某个具体条款时，AI 是个好帮手，能省不少力气。
AI 不能当“决策者”：当你需要跨越国界做复杂的对比决策时，AI 还容易“翻车”。因为它虽然读过很多书，但还没完全学会如何像人类专家那样，在两个完全不同的逻辑体系间灵活切换和深度推理。

总结一下：
这就好比你请了一位博学的“翻译官”来帮你处理跨国生意。他翻译单句很流利，但如果你让他直接做“跨国法律仲裁”，你最好还是让他先打个草稿，然后一定要由人类专家亲自审核一遍，毕竟药品的安全可是人命关天的大事，容不得半点马虎。

这篇论文把这场考试的所有题目和答案都公开了，就像把“考卷”挂在了网上，让全世界的研究者都能来测试自己的 AI 到底够不够格。

类似论文