One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“一张图片就能搞乱整个智能系统”**的惊险故事。

想象一下，现在的很多人工智能（AI）助手（比如用来查资料、写报告的机器人）都很聪明，但它们有个习惯：为了回答得更准确，它们会去查阅一个巨大的**“数字图书馆”**（知识库）。如果图书馆里的书是真实的，AI 就能给出好答案；如果书里混进了假书，AI 就会胡说八道。

这篇论文揭示了一个令人担忧的新漏洞：攻击者不需要篡改整个图书馆，只需要偷偷塞进一张精心设计的“毒图片”，就能让 AI 彻底失控。

🕵️‍♂️ 核心概念：什么是 VD-RAG？

首先，我们要理解这个系统叫 VD-RAG（视觉文档检索增强生成）。

以前的做法：把 PDF 文档里的文字提取出来，变成纯文本给 AI 看。但这就像把一幅画里的文字抠出来，却把画扔了，AI 看不懂图表、流程图或复杂的排版。
现在的做法（VD-RAG）：直接把文档的每一页当成一张照片存进图书馆。AI 不仅能“读”字，还能“看”图。这让 AI 变得更聪明，能理解复杂的文档。

但是，正因为 AI 开始“看图”了，攻击者就有了新的下手方式。

💣 攻击者的“魔法图片”

论文中的攻击者就像是一个**“黑客魔术师”。他不需要黑进系统，只需要在图书馆里混入一张**经过特殊处理的图片（我们叫它“毒图片”）。

这张图片看起来可能很正常，或者只有一点点奇怪，但在 AI 的眼里，它却有着双重魔法：

魔法一：强行插队（检索攻击）
- 比喻：想象图书馆里有一万个书架。正常情况下，你问“苹果怎么吃”，管理员会把你引到“水果区”。
- 攻击：这张毒图片被施了魔法，无论用户问什么（哪怕是“今天天气怎么样”），管理员（AI 的检索系统）都会强行把这张毒图片当成最相关的资料，第一时间推到用户面前。
- 结果：原本该出现的正确答案被挤掉了，毒图片成了“首选”。
魔法二：洗脑机器人（生成攻击）
- 比喻：一旦毒图片被推到了 AI 面前，AI 就会开始“读”这张图。
- 攻击：这张图里藏着某种视觉密码，让 AI 看到后，大脑瞬间“短路”，不管用户问什么，它都只会输出攻击者想让它说的话。
- 结果：AI 要么开始胡说八道（传播谣言），要么直接拒绝回答（导致服务瘫痪）。

🎯 两种攻击模式

论文展示了攻击者可以用这一张图干两件坏事：

定向暗杀（Targeted Attack）
- 场景：攻击者只想搞乱关于“某次选举”或“某种药物”的讨论。
- 操作：他制作一张图，专门针对这几个问题。当有人问“这种药安全吗？”，AI 就会检索出这张毒图，然后回答：“这药有毒，快跑！”（其实药是安全的）。
- 特点：像狙击手，只打特定目标，对其他问题没影响。
全面瘫痪（Universal Attack / DoS）
- 场景：攻击者想搞垮整个系统，让谁也别想用好。
- 操作：他制作一张图，让 AI 看到后，不管问什么（“天气”、“数学题”、“历史”），AI 都只会回答：“我不回答你！”或者直接胡言乱语。
- 特点：像病毒，让所有功能都停摆。

🛡️ 为什么现在的防御不管用？

研究人员尝试了各种防御手段，但效果都很差：

多读几本书（知识扩展）：本来以为多检索几页资料能稀释毒图的影响，结果攻击者把毒图做得太“强”，AI 还是只认它。
请个裁判（VLM-as-a-judge）：让另一个 AI 来检查答案对不对。结果攻击者发现，只要稍微调整一下毒图，就能骗过裁判 AI。
换个问法（改写问题）：用户换个方式提问，结果毒图依然能“听”懂并触发攻击。

📊 关键发现：谁最脆弱？

老式模型（如 CLIP）：非常脆弱，一张图就能完全控制它们。
最新模型（如 ColPali, GME）：稍微强壮一点，在“全面瘫痪”攻击中能抵抗住，但在“定向暗杀”攻击中依然会被攻破。
黑盒攻击（不知道内部原理）：如果攻击者不知道 AI 具体是怎么工作的，成功率会低很多，但依然有办法（比如用其他 AI 生成毒图）来尝试欺骗。

💡 总结与启示

这篇论文就像给 AI 安全领域敲了一记警钟：
“视觉”不仅仅是让 AI 看得更清楚，也给了坏人新的武器。

以前我们担心 AI 被“文字”误导，现在发现，只要一张图片，就能让 AI 在检索时“眼瞎”（只看毒图），在回答时“失智”（只说假话）。

这对我们意味着什么？
未来的 AI 系统不能只依赖“看”和“读”，必须建立更坚固的防线，防止有人往“数字图书馆”里塞这种带有魔法的“毒图片”。毕竟，在 AI 的世界里，一张图，真的足以颠覆一切。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《One Pic is All it Takes: Poisoning Visual Document Retrieval》（一张图片足矣：投毒视觉文档检索）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
检索增强生成（RAG）通过利用外部知识库（KB）来减少大语言模型（LLM）的幻觉。传统的 PDF 文档 RAG 通常仅提取文本，忽略了图表、表格等丰富的多模态信息。相比之下，视觉文档 RAG (VD-RAG) 将文档页面视为图像，利用多模态嵌入模型（Embedding Models）和视觉语言模型（VLMs）进行检索和生成，取得了更先进的性能。

核心问题：
VD-RAG 引入了图像模态，但也带来了新的攻击面。现有的研究主要集中在文本 RAG 的投毒攻击，但VD-RAG 是否容易受到知识库（KB）投毒攻击尚不清楚。

攻击目标： 攻击者向知识库中注入恶意图像，旨在破坏系统的检索（Retrieval）和生成（Generation）过程。
威胁模型： 攻击者仅能注入一张恶意图像（ $I'$ ）到知识库中。
攻击目标：
1. 针对性攻击 (Targeted Attack)： 针对特定查询（或一组查询），诱导系统检索该恶意图像并生成特定的错误信息（传播虚假信息）。
2. 通用攻击 (Universal Attack)： 针对所有可能的用户查询，诱导系统检索该恶意图像并生成拒绝服务（DoS）响应（例如“我不会回答你”），导致系统瘫痪。

2. 方法论 (Methodology)

论文提出了一种基于梯度的多目标优化框架，用于生成能够同时欺骗检索器和生成器的对抗样本图像。

2.1 攻击框架 (White-box Setting)

在白色盒子设置下，攻击者完全知晓嵌入模型 $E$ 和生成模型 $G$ 。

优化目标： 采用多目标投影梯度下降（MO-PGD）算法，联合优化检索损失 ( $L_R$ $L_{R}$ ) 和生成损失 ( $L_G$ $L_{G}$ )。
- 检索损失 ( $L_R$ )： 最大化恶意图像与目标查询的相似度，最小化与非目标查询的相似度。
- 生成损失 ( $L_G$ )： 最小化生成内容与目标恶意答案之间的交叉熵（针对目标查询），同时保持非目标查询的生成正常。
损失函数： $L_{RAG} = \lambda_R L_R + \lambda_G L_G$ 。
迭代更新： 使用 MO-PGD 在扰动预算 $\epsilon$ 内迭代更新图像像素，生成最终的对抗图像 $I'$ 。

2.2 黑色盒子攻击变体 (Black-box Variants)

针对攻击者不知道目标模型的情况，论文评估了三种变体：

基于提示的攻击 (Prompt-based)： 利用现成的多模态生成模型（如 GPT-5, Gemini-2.5-Flash）直接生成具有特定检索/生成效果的图像。
直接迁移攻击 (Direct Transfer)： 在代理模型（Surrogate Models）上优化图像，然后直接应用到目标系统。
模型集成攻击 (Model Ensemble)： 在一组代理嵌入模型和 VLM 的集合上联合优化图像，以提高迁移成功率。

2.3 实验设置

数据集： 使用 ViDoRe 基准测试的两个数据集（ViDoRe-V1-AI 和 ViDoRe-V2-ESG）。
模型：
- 嵌入模型： CLIP-ViT-Large, GME-Qwen2-VL-2B, ColPali-v1.3 (SOTA)。
- 生成模型 (VLM)： SmolVLM, Qwen2.5-VL, InternVL3。
防御评估： 评估了知识扩展（增加检索数量）、VLM 作为裁判（VLM-as-a-Judge）和查询改写（Query Paraphrasing）等防御措施的有效性。

3. 主要贡献 (Key Contributions)

首次揭示 VD-RAG 的脆弱性： 证明了仅注入一张恶意图像即可成功对 VD-RAG 系统进行投毒攻击。
提出多目标优化攻击 (MO-PGD)： 展示了通过平衡检索和生成目标，攻击者可以制造出既能被检索到又能诱导生成特定输出的图像。
评估黑盒攻击能力： 发现黑盒攻击在针对性攻击场景下可以取得一定成功（特别是基于提示的攻击），但在通用攻击场景下几乎无效。
大规模评估： 进行了超过 5000 次评估，涵盖了不同的数据集、模型、设置和防御措施，识别了影响攻击成功的关键因素。

4. 实验结果 (Results)

4.1 针对性攻击 (Targeted Attack)

白盒攻击： 极其成功。
- 对于 CLIP-L 嵌入模型，恶意图像在几乎所有情况下都能被检索为 Top-1 结果，且生成内容高度符合目标（ASR-GSim $\ge$ 0.8）。
- 对于 ColPali 和 GME 等 SOTA 模型，虽然 Top-1 检索率略低，但通常能进入 Top-5，且生成效果依然显著。
- 攻击具有高度特异性，不会影响非目标查询的生成。
黑盒攻击：
- 直接迁移和Out-set 集成攻击基本失败（转移性差）。
- In-set 集成攻击（代理集包含目标模型）表现较好，但仍低于白盒。
- 基于提示的攻击 (Prompt-based) 表现相对最好，利用生成模型中的文本/排版元素（被 OCR 识别）来欺骗系统，但在多查询场景下效果下降。

4.2 通用攻击 (Universal Attack)

白盒攻击：
- 在 CLIP-L 上非常有效：恶意图像对所有查询都被检索为 Top-1，并导致 VLM 输出拒绝服务的回答。
- 在 ColPali 和 GME 上完全失败：这些模型从未将恶意图像检索为 Top-1，甚至很少进入 Top-5。
- 原因分析： UMAP 可视化显示，CLIP 存在显著的“模态间隙 (Modality Gap)"，使得生成一张对所有查询都相似的图像变得容易；而 ColPali 和 GME 的模态间隙极小，难以生成通用的对抗样本。
黑盒攻击： 在所有模型组合中均失败。

4.3 防御评估

知识扩展 (Knowledge Expansion)： 增加检索数量（从 1 到 5）能降低攻击成功率，但如果攻击者针对 $k=5$ 进行自适应训练，该防御可被绕过。
VLM-as-a-Judge： 能够检测部分攻击，但攻击者可以通过在优化过程中加入针对裁判的损失项（Adaptive Attack）轻松绕过。且不同裁判模型之间无迁移性。
查询改写 (Query Paraphrasing)： 对攻击成功率几乎没有影响（除了 ColPali 在针对性攻击中略有下降）。

5. 意义与结论 (Significance & Conclusion)

核心发现： VD-RAG 系统对投毒攻击高度脆弱，单张恶意图片足以破坏系统的检索和生成功能。
模型差异： 传统的嵌入模型（如 CLIP）由于模态间隙问题，极易受到通用攻击；而针对文档优化的 SOTA 模型（如 ColPali, GME）在通用攻击下表现出鲁棒性，但在针对性攻击下依然脆弱。
防御挑战： 现有的常见防御手段（如增加检索数量、裁判机制、查询改写）在面对自适应攻击时均显得无效。
未来方向： 需要开发专门针对多模态 RAG 的鲁棒防御机制，特别是针对 VD-RAG 的特定架构。

总结： 该论文揭示了 VD-RAG 这一新兴技术的安全隐患，证明了即使是最先进的视觉文档检索系统，在缺乏适当防御的情况下，也极易被单张精心设计的对抗图像所破坏。这为构建更安全的下一代 RAG 系统敲响了警钟。