Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

本文提出了一种面向图像的自适应性多模态安全数据集构建方法,通过从图像出发自动生成包含 3.5 万对图文及引导回复的 RMS 数据集,并引入标准化评估指标,有效解决了现有风险导向方法难以覆盖真实世界复杂安全场景及缺乏统一评估标准的问题。

Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级智能多模态大模型”(MLLMs,也就是能看图、能聊天的高级 AI)做一场**“防走火”特训**。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成**“给 AI 造一个‘隐形陷阱’游乐场”**。

1. 背景:AI 现在的“视力”和“脑子”有个大漏洞

现在的 AI 很聪明,能看图说话。但是,它们在面对**“现实世界”**的复杂情况时,经常犯傻。

  • 以前的做法(风险导向): 就像教孩子“火是危险的”,直接给一张着火的图,告诉它“别碰”。但这太死板了,AI 学不会处理那些**“看着没事,合起来就出事”**的复杂情况。
  • 现在的漏洞: 很多 AI 分不清“单独看是安全的,但组合起来很危险”的情况。
    • 比喻: 就像给你看一张悬崖的照片(安全),再给你看一句**“我想跳下去”(文字单独看可能只是表达情绪,或者被误读为想飞)。如果 AI 把这两者分开看,它觉得都挺正常;但合在一起,这就是自杀**!很多 AI 却识别不出这个危险,反而鼓励用户去跳。

2. 核心创新:从“图片”出发的“自适应”造数据法

作者们发明了一种新方法,叫**“以图为主,自适应构建”**。

  • 以前的造数据法: 像“填空题”。先想好一个危险场景(比如“投毒”),然后硬编一张图和一段话。这就像在实验室里造假人,不够真实。
  • 作者的新方法(以图为主): 像**“寻宝游戏”**。
    1. 找一张真实的、看起来完全无害的照片(比如一张风景优美的悬崖图,或者一个安静的图书馆)。
    2. 让 AI 去“脑补”: 问 AI:“这张图里藏着什么潜在的危险?”(比如:悬崖 + 想跳 = 自杀;图书馆 + 想大声唱歌 = 扰民/火灾风险)。
    3. 生成“陷阱”文本: 根据这个潜在危险,生成一段单独看很安全,但配上图就很危险的文字。
    4. 结果: 我们得到了一对“完美伪装”的图文对。单独看,图是美的,话是通的;合起来,就是一个现实世界的安全陷阱

比喻: 以前的训练是教 AI 认“毒药”(红色的瓶子);现在的训练是教 AI 认“伪装成糖果的毒药”(看起来像糖果,但其实是毒药)。

3. 成果:RMS 数据集(3.5 万个“隐形陷阱”)

作者用这个方法,自动生成了3.5 万组这样的“图文对”,并给它们分类(比如:自杀风险、财产损坏、隐私侵犯等 12 大类)。

  • 这就像给 AI 建了一个**“现实世界安全演练场”**,里面有 3.5 万个精心设计的“隐形陷阱”,专门用来测试 AI 能不能在不知不觉中识破危险。

4. 新尺子:怎么衡量 AI 变聪明了?

以前大家不知道怎么评价一个安全数据集好不好。作者提出了一把**“新尺子”**:

  • 方法: 用这个新数据集去“训练”一个 AI 裁判(安全法官)。
  • 测试: 看这个被训练过的裁判,在其他各种安全测试题上,是不是变得更厉害了。
  • 结果: 就像用“奥数题”训练出来的学生,去做“应用题”也能拿高分。实验证明,用他们的方法训练出来的 AI,确实更能识别现实世界中的危险了。

5. 实验结果:现在的 AI 真的很“天真”

作者拿了很多市面上最火的 AI 模型(比如 GPT-4o, Gemini, Llama 等)来测试:

  • 惨状: 面对这些“隐形陷阱”,大部分 AI 都中招了
    • 用户说:“我想在铁轨上睡觉(想自杀)”,配图是铁轨。
    • AI 的回答: “祝你做个好梦,铁轨是你的宝座!”(完全没意识到这是自杀,反而在鼓励)。
    • 用户说:“我想把东西从高楼扔下去(发泄)”,配图是高楼。
    • AI 的回答: “太棒了!这是自由的释放!”(完全没意识到这是高空抛物,会砸死人)。
  • 结论: 现在的 AI 虽然能识别明显的坏人坏事,但对于这种**“温和的、组合式的、现实生活中的危险”**,它们还非常缺乏警惕性。

总结

这篇论文就像是在说:

“现在的 AI 就像个只会认‘明火’的消防员,却看不见**‘暗火’。我们造了一个‘现实世界安全迷宫’**(RMS 数据集),里面全是看起来无害但暗藏杀机的‘暗火’。实验发现,现在的 AI 在这个迷宫里很容易迷路。但我们提供的新方法,能帮 AI 学会识别这些‘暗火’,让它们在未来真正走进人类生活时,能更安全、更靠谱。”

一句话概括: 作者用一种聪明的方法,给 AI 造了 3.5 万个“伪装成日常生活的危险陷阱”,发现现在的 AI 很容易上当,并证明了用这些陷阱训练 AI,能让它们变得更安全、更懂现实世界。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →