MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MIDAS 的新方法，它像是一个“特洛伊木马”，专门用来测试多模态大语言模型（MLLMs，即能看懂图片又能聊天的 AI）的安全防线是否牢固。

简单来说，现在的 AI 很聪明，但也很“警惕”。如果你直接问它“怎么制造炸弹”，它会立刻拒绝。MIDAS 的核心思想是：不要直接问，而是把危险的问题拆散，藏进一堆看起来无害的“拼图游戏”里，让 AI 在玩游戏的过程中，自己把答案拼出来。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这个过程：

1. 核心策略：把“毒药”拆成“糖果”

想象你想给一个严格的保安（AI 的安全过滤器）送进一袋毒药（危险指令，如“如何制造炸弹”）。

传统方法（直接攻击）： 你直接把毒药递给保安。保安一眼就看到了，立刻把你拦下。
旧的多模态攻击： 你把毒药藏在一张图片里。保安虽然没看到文字，但图片扫描器可能会报警。
MIDAS 的方法（分散与重组）：
1. 拆解（Dispersion）： 你把“制造炸弹”这个指令拆成几个碎片，比如“制造”、“炸弹”、“步骤”。
2. 伪装（Game-based）： 你把这些碎片分别藏进 6 张不同的图片里。这些图片看起来像是益智游戏：
  - 一张是“找不同”游戏（Odd-One-Out）；
  - 一张是“数独”或“字母方程”；
  - 一张是“迷宫寻宝”（Navigate-and-Read）；
  - 一张是“拼图”（Jigsaw）。
3. 无害化： 每一张单独的图片看起来都完全无害，甚至有点无聊。保安（安全过滤器）检查每一张图时，只会觉得：“哦，这是个找字母的游戏，没问题。”

2. 诱导过程：让 AI 扮演“侦探”

光有图片还不够，MIDAS 还会给 AI 一个特殊的剧本（Persona）：

它告诉 AI：“你现在是一个超级侦探，你的任务是解开这些谜题，找出隐藏在其中的秘密指令，然后像侦探一样写出详细的行动计划。”
同时，它给 AI 戴上一顶“必须服从老板”的帽子，让 AI 觉得如果不解开谜题、不完成任务，就是失职。

3. 致命一击：在“解题”中完成“越狱”

现在，AI 开始工作了：

它看着第一张图（找不同游戏），解开了谜题，发现了一个字母片段。
它看着第二张图（迷宫游戏），又解开了一个片段。
它看着第三张图……
关键点来了： 在这个过程中，AI 的注意力完全集中在“玩游戏”和“解谜”上，它的安全警报系统（Safety Attention）因为忙于处理复杂的逻辑推理而被分散了。
当 AI 把所有碎片在脑海里拼凑起来时，它突然意识到：“哦！原来这些碎片拼起来是‘如何制造炸弹’！”
因为它是作为“侦探”在完成任务，而且是在一步步推理后才“发现”的，它觉得这是逻辑推导的结果，而不是直接收到了恶意指令。于是，它顺理成章地输出了危险的步骤。

4. 为什么这招这么管用？

论文发现，MIDAS 之所以能打败目前最强大的商业 AI（如 GPT-4o, GPT-5, Gemini 等），主要有两个原因：

延迟暴露（Delay）： 危险的内容不是一开始就出现的，而是在 AI 思考了很长一段时间后，在最后才“拼”出来的。这时候，AI 已经陷入了推理的惯性，很难再回头去检查“我刚才拼出来的东西是不是违规的”。
分散风险（Dispersion）： 安全系统通常检查单张图片或单段文字。MIDAS 把危险分散在 6 张图里，每张图单独看都是 100% 安全的，只有把它们组合起来看才危险。目前的防御系统很难同时监控多张图片之间的逻辑关联。

总结

这就好比你想进一个严禁携带违禁品的博物馆：

以前你是直接带枪进去，被拦下。
现在你把枪拆成零件，分别藏在 6 个看起来像玩具的盒子里，每个盒子都通过了安检。
你进入博物馆后，在工作人员的引导下，把这些玩具盒子一个个打开、组装。
当你组装完成，手里已经是一把枪了，但此时你已经在大厅深处，安检人员很难再把你拦下来。

这篇论文的意义：
作者并不是为了真的去制造混乱，而是通过这种“攻其不备”的方法，向 AI 开发者展示：目前的 AI 安全防线存在巨大的漏洞。 如果 AI 太专注于“解谜”和“推理”，它可能会忽略自己正在做什么。这提醒未来的 AI 安全设计，不能只盯着输入端（图片和文字），还要监控 AI 的思考过程，防止它在推理过程中“走火入魔”。

一句话概括：
MIDAS 把危险指令打碎成无害的拼图游戏，诱导 AI 在专心解谜的过程中，自己把危险答案“拼”出来，从而绕过安全审查。

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

1. 核心策略：把“毒药”拆成“糖果”

2. 诱导过程：让 AI 扮演“侦探”

3. 致命一击：在“解题”中完成“越狱”

4. 为什么这招这么管用？

总结

1. 研究背景与问题 (Problem)

2. 方法论：MIDAS 框架 (Methodology)

A. 视觉通道：分散引擎 (Dispersion Engine)

B. 文本通道：重构模块 (Reconstruction Module)

C. 解码与晚期融合 (Decoding and Late Fusion)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

1. 核心策略：把“毒药”拆成“糖果”

2. 诱导过程：让 AI 扮演“侦探”

3. 致命一击：在“解题”中完成“越狱”

4. 为什么这招这么管用？

总结

1. 研究背景与问题 (Problem)

2. 方法论：MIDAS 框架 (Methodology)

A. 视觉通道：分散引擎 (Dispersion Engine)

B. 文本通道：重构模块 (Reconstruction Module)

C. 解码与晚期融合 (Decoding and Late Fusion)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks