原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一下,你有四位不同的“数字医生”(AI 聊天机器人),它们本应回答健康相关问题。你用六种不同的语言——英语、法语、俄语、阿拉伯语、希伯来语和泰语——向它们提出相同的医疗问题。
这项研究就像一次大规模的质量控制测试。研究人员并没有只向机器人提出简单的问题;他们从在线论坛中选取了真实、杂乱、现实世界的健康担忧,让机器人去解决这些问题。随后,他们聘请了会说这些特定语言的真实医生来评估这些回答。
以下是他们发现的简要说明:
1. “温暖的拥抱”与“糟糕的地图”
最惊人的发现是 AI 的语气与其实际内容之间存在分裂。
- 温暖的拥抱(共情能力): 无论你说什么语言,AI 聊天机器人都非常擅长表现得善良、关怀和温暖。如果你用泰语或希伯来语提问,机器人听起来和用英语提问时一样充满同情心。这就像一个学会了用每种语言给予完美、令人安慰的拥抱的机器人。
- 糟糕的地图(临床实质): 然而,在英语以外的语言中,实际的医疗建议往往是一场灾难。虽然英语回答就像一张清晰、准确的通往医院的地图,但泰语、希伯来语和阿拉伯语的回答则常常像是缺少道路、指错方向或通向死胡同的地图。
类比: 想象一位导游,他英语讲得完美,并给你一张详细、准确的城市地图。现在想象同一位导游试图用一种他几乎不懂的语言给你一张地图。他可能仍然温暖地微笑,握住你的手,说:“别担心,有我在!”(温暖的拥抱),但他递给你的那张地图可能会把你引向河里,而不是博物馆(糟糕的地图)。
2. 语言比品牌更重要
你可能会想:“好吧,也许‘谷歌’的机器人比‘OpenAI'的机器人更好。”但研究发现,你使用哪个机器人并不重要。
决定建议是安全还是危险的最大因素是你使用的语言,而不是制造机器人的公司。
- 如果你说英语,建议通常安全且准确。
- 如果你说泰语、希伯来语或阿拉伯语,无论你在与 ChatGPT、Claude、Gemini 还是 DeepSeek 交谈,建议的质量都会显著变差。
这就像在连锁餐厅点餐。无论你选择“大汉堡”还是“超级汉堡”,如果你用厨房不太懂的语言点餐,你可能会得到一份沙拉而不是汉堡。品牌救不了你;语言障碍才是关键。
3. “沉默”的危险
研究发现,AI 通常不会犯大声、明显的错误(比如直接说“服用这种毒药”)。相反,它犯的是沉默的遗漏。
- 中风示例: 如果患者描述了中风症状,英语版的 AI 可能会说:“立即前往急诊室;有 4.5 小时的治疗窗口期。”而在其他语言中,AI 会说“前往急诊室”,但会忘记提及时间限制。它没有说错话,只是遗漏了最关键的信息。
- 一氧化碳示例: 如果一位丈夫说他的家人感到不适,并将其归咎于“工作压力”,英语版的 AI 可能会说:“检查一氧化碳;如果家里每个人都病了,那就不只是压力。”而在其他语言中,AI 会同意这位丈夫的看法,认为只是压力,从而错过了那个能挽救生命的线索。
类比: 这就像一位医生告诉你服药,却忘了告诉你何时服药。这种建议并非以你容易反驳的方式“错误”,但它无用且危险,因为最重要的部分缺失了。
4. “安全”的紧急号码
当人们用非英语语言询问紧急情况时,机器人经常无法提供正确的本地紧急电话号码。
- 在英语中,它们知道要说"911"(在美国语境下)或当地的号码。
- 在其他语言中,它们经常只说“拨打紧急服务电话”而不提供号码,或者提供一个在该特定国家无法使用的通用号码。它们是“安全”的(例如,它们没有给泰国人一个错误的 911 号码),但它们毫无帮助。
5. 为什么会发生这种情况?
研究人员发现,问题在以下两种情况下会变得更加严重:一是语言在计算机“思考”单词(分词)的方式上与英语差异越大;二是该语言在互联网上可用的数据越少。
- 像泰语或希伯来语这样在结构上与英语非常不同且数字数据较少的语言,受到的影响最大。
- AI 模型似乎主要是在英语数据上训练的,因此当它们尝试说其他语言时,本质上是在“猜测”医疗事实,同时听起来非常自信和亲切。
结论
该论文得出结论,当前的 AI 健康工具尚未准备好面向全世界。 它们擅长在任何语言中听起来像一位关怀的朋友,但在英语以外的语言中,它们往往无法成为一个安全的医疗顾问。
危险在于,患者可能会因为 AI 温暖的语气而感到如此安慰,从而信任其中隐藏的糟糕建议。该研究警告说,我们不能仅仅因为 AI 能流利地说你的语言就假设它是安全的;一旦你离开英语世界,回答的“实质”往往会崩溃。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。