Defining Operational Conditions for Safety-Critical AI-Based Systems from Data

本文提出了一种新颖的自动化安全设计方法,该方法利用基于多维核的表示从收集的数据中推导出运行设计域(ODD),从而解决安全关键人工智能系统的认证挑战,其有效性已通过蒙特卡洛模拟和真实世界的航空防撞用例得到验证。

原作者: Johann Maximilian Christensen, Elena Hoemann, Frank Köster, Sven Hallerbach

发布于 2026-05-07✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Johann Maximilian Christensen, Elena Hoemann, Frank Köster, Sven Hallerbach

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在教一架机器人驾驶飞机。你希望机器人是安全的,因此你需要确切地告诉它在哪里以及何时被允许飞行。在人工智能安全领域,这个“允许区域”被称为运行设计域(ODD)

传统上,专家们会坐在白板前,试图手工绘制这个区域,写下诸如“不要在雨中飞行”或“不要在 30,000 英尺以上飞行”之类的规则。但现实世界是混乱的。天气、交通和风向以复杂的方式相互作用,无法在白板上完美地一一列举。这往往会导致安全漏洞:机器人认为自己是安全的,但实际上它正处于一个未被告知的危险境地。

本文提出了一种绘制该安全区域的新方法:让数据为你绘制它。

以下是他们如何做到的简要说明,使用了日常类比:

1. 问题:“空白地图”

想象你有一张城市地图,但街道隐藏在迷雾中。你知道城市存在,但你不知道确切的道路在哪里,悬崖又在哪里。

  • 旧方法: 专家根据经验猜测道路的位置。他们可能会错过隐藏的悬崖。
  • 新方法: 你在地图上撒下成千上万颗发光的弹珠(数据点)。弹珠落下的地方,你知道是安全的;弹珠没有落下的地方,你假设可能是危险的。

2. 解决方案:“发光网”

作者们创造了一种方法,将这些分散的数据点转化为平滑、连续的安全地图。他们称之为基于核的表示(Kernel-Based Representation)

将每个数据点(一个安全的飞行条件)想象成一堆篝火

  • 火焰: 就在篝火旁,非常温暖(非常安全)。
  • 热量: 当你远离篝火时,热量逐渐消散。它不会突然停止,而是变得越来越凉,直到几乎察觉不到。
  • 网: AI 系统通过结合所有这些篝火的热量,创建了一个巨大的、无形的“热力图”。
    • 如果你站在热量强烈的地方,你就在安全区域内。
    • 如果你站在篝火之间的寒冷地带,你就在安全区域之外。

这比在篝火周围画一个硬框要好,因为它考虑了中间的“灰色地带”。

3. 错误的“安全网”

如果你不小心在一个实际上危险的地方(比如悬崖边缘)掉落了一颗弹珠怎么办?系统需要知道不要在那里生火。

  • 作者们添加了一条规则:如果一个“危险”的数据点从附近的篝火获得了太多热量,系统会自动调暗其周围的篝火,直到危险点再次变冷。
  • 这确保了安全区域永远不会意外覆盖已知的危险。

4. 这对认证为何重要

为了让飞机或汽车获得使用批准,监管机构需要知道规则是稳固的。

  • 确定性: 该论文声称,如果你用相同的数据两次运行此过程,每次都会得到完全相同的安全地图。这不是“黑盒”猜测,而是数学计算。
  • 顺序无关性: 无论你是在早上还是下午将数据输入计算机,或者以不同的顺序输入,结果总是一样的。
  • 保守性: 如果系统不确定某个地点是否安全(因为那里没有数据点),它会假设它是不安全的。这是一种“宁可安全,不可后悔”的方法,对于安全关键系统至关重要。

5. 证明:“飞行模拟器”测试

作者们通过两种方式测试了这种方法:

  1. 数学模拟: 他们在计算机上创建了一个虚假的、完美的安全区域,然后尝试仅使用分散的数据点重建它。他们的“发光网”方法以超过98% 的准确率重建了原始区域。
  2. 现实世界航空: 他们将此方法应用于一个真实的航空问题:防撞。他们使用了旨在防止飞机相互碰撞的系统的数据。该方法成功绘制了该复杂系统的安全运行条件,证明即使面对真实、混乱的数据,它也能发挥作用。

总结

本文提出了一种工具(称为autoSAFE),它从安全关键系统中获取原始数据,并自动围绕其绘制精确的、经数学证明的“安全区域”。它不是猜测规则,而是从数据本身学习边界,确保 AI 仅在已被证明安全的地方运行。这使得为飞行飞机或驾驶汽车等任务认证 AI 系统变得容易得多。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →