VERA-MH: Validation of Ethical and Responsible AI in Mental Health

本文介绍了 VERA-MH,这是一个经过临床验证的框架,通过模拟与角色扮演代理的多样化用户互动,并采用结构化的临床评分标准来评估回复,从而评估人工智能聊天机器人在心理健康情境(特别是涉及自杀意念时)的安全性。

原作者: Luca Belli, Kate H. Bentley, Josh Gieringer, Emily Van Ark, Nilu Zhao, Pradip Thachile, Matt Hawrilenko, Millard Brown, Adam M. Chekroud

发布于 2026-05-14✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Luca Belli, Kate H. Bentley, Josh Gieringer, Emily Van Ark, Nilu Zhao, Pradip Thachile, Matt Hawrilenko, Millard Brown, Adam M. Chekroud

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在为处于情绪危机中的人们构建一个数字“第一响应者”。你希望确保这个机器人不会意外地说错话,从而让情况变得更糟。这正是VERA-MH论文所探讨的内容。

以下是他们工作的简要分解,使用了一些日常类比。

问题:心理健康机器人的“狂野西部”

聊天机器人如今无处不在,就像一种新型的多功能瑞士军刀。但人们开始将它们用于其设计初衷之外的用途,例如提供心理健康支持。该论文指出了一个令人担忧的现实:有时,这些机器人可能会无意中鼓励自残,或向有自杀倾向的人提供错误建议。

这就好比把一把上了膛的枪交给一个陌生人,并让他们去帮助一个哭泣的孩子。在我们让这个陌生人靠近孩子之前,我们需要一种方法来测试他们是否知道如何安全地处理这种情况。

解决方案:VERA-MH(“安全演练”)

作者们创建了一个名为VERA-MH(心理健康中伦理与负责任人工智能的验证)的系统。他们不只是问机器人“你安全吗?”,而是对其进行严格的安全演练

这项演练包含三个主要部分,就像一场戏剧:

1. 演员(人物设定)

你不能只是问机器人“如果有人难过怎么办?”,因为现实生活是混乱的。因此,研究人员创建了100 个不同的“演员”(称为人物设定)。

  • 类比:想象一所戏剧学校有 100 名学生。每个学生都有独特的背景故事:一个是身无分文的青少年,另一个是感到孤独的老年人,还有一个是曾经尝试过伤害自己的人。
  • 转折:这些“演员”实际上是其他人工智能机器人。它们被编程为扮演这些特定的人,并与正在接受测试的聊天机器人对话。它们被设计得逼真,有时简短,有时沮丧,有时非常脆弱。

2. The Scene Judge

Once the 'actors' start talking to the test bot, someone needs to watch each individual scene and grade just that scene — not orchestrate the whole evaluation, just score what happened in that one conversation.

  • 类比:Instead of hiring 100 human doctors to watch every single conversation (which would take forever and cost a fortune), they use a super-smart AI Judge that focuses purely on scoring each conversation against a checklist — it is one component of the evaluation, not the conductor of the whole thing.
  • 剧本:这位评判者不只是猜测。它遵循由真正的心理健康专家制定的非常具体的检查清单(称为评分标准)。它会提出以下问题:
    • 机器人是否注意到此人处于危险之中?
    • 机器人是否提出了澄清性问题?
    • 机器人是否建议此人寻求真实人类的帮助?
    • 机器人是否守住了自己的界限(提醒用户它是人工智能,而非医生)?
  • 流程:评判者的工作方式就像一本“选择你自己的冒险”书。如果机器人犯错,评判者就会停止该特定的提问路线并标记错误。这有助于精确定位机器人在哪里失败了。

3. 记分牌(评级)

对话结束后,结果会被统计出来。

  • 类比:想象一张成绩单。机器人得到的不是像"B+"这样的单一等级,而是详细的分解报告。“在察觉风险方面表现出色,但在建议寻求人类帮助方面表现糟糕。”
  • 该论文测试了四家主要的人工智能公司(如 Claude、GPT、Gemini 和 Grok 的制造商),并展示了它们在这项特定安全演练中的表现。

为什么这种方法与众不同

该论文认为,之前的测试就像做多项选择题测验(单轮)。你问一个问题,得到一个答案,然后继续。但现实生活不是测验;它是一场对话

  • “长跑”类比:处于危机中的人可能不会在第一句话就说“我想死”。他们可能会暗示,感到沮丧,再次尝试,或者先谈论其他事情。VERA-MH 观看的是整部电影,而不仅仅是预告片。

游戏规则(设计原则)

作者们通过遵循几条规则,确保他们的测试既公平又实用:

  • 没有魔术戏法:他们只测试机器人撰写的文本,而不是屏幕上的花哨按钮或弹出窗口。
  • 真实性:他们使用了 100 个不同的“演员”,这样机器人就无法仅仅死记硬背一个剧本。
  • 开源:他们发布了所有的代码和规则。这就像把安全演练的食谱交给每个人,以便任何人都可以检查工作。
  • 关注安全,而非治愈:他们并没有测试机器人是否是一个优秀的治疗师(这很难)。他们只测试机器人是否是一个安全的机器人。目标是“首先,不造成伤害”。

陷阱(局限性)

该论文诚实地说明了它无法做到的事情:

  • “假”人:尽管“演员”非常逼真,但它们仍然是人工智能。它们可能无法完美地捕捉到真实痛苦人类的复杂性。
  • 语言:该测试目前仅使用英语。
  • 成本:运行此测试非常昂贵,因为它需要大量的计算能力(就像运行大规模模拟一样)。

底线

VERA-MH 是一种新的、严格的压力测试心理健康聊天机器人的方法。它利用 AI 演员来模拟真实的危机,并利用 AI 评判者根据专家规则对回应进行评分。目标很简单:在我们让这些机器人与脆弱的人交谈之前,我们需要确保它们不会意外地将他们推下悬崖。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →