VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VidDoS 的新型网络攻击手段。为了让你更容易理解，我们可以把视频大语言模型（Video-LLM）想象成一位**“超级智能的自动驾驶副驾驶”**。

🚗 核心故事：给“副驾驶”灌迷魂汤

想象一下，你坐在一辆由 AI 驾驶的自动驾驶汽车里。这辆车的“大脑”是一个视频大语言模型，它能实时看着前方的路况视频，并迅速回答你的问题，比如：“前面需要停车吗？”或者“这辆车要变道吗？”

正常情况下，这位“副驾驶”反应极快，回答简洁明了（比如只说“是”或“否”），保证行车安全。

VidDoS 攻击就是给这位“副驾驶”喂了一剂“迷魂汤”。

1. 攻击原理：一个看不见的“坏贴纸”

以前的攻击方法像是在每一帧视频里都涂一点点噪点（就像给每一张路牌都画个小小的叉），但现在的视频模型很聪明，它会像“过滤网”一样，把这些分散的噪点过滤掉，根本不起作用。

VidDoS 的聪明之处在于，它不再到处乱涂，而是在视频的某个角落（比如右下角）贴了一个看不见的“魔法贴纸”。

比喻：这就好比你在汽车的挡风玻璃右下角贴了一个只有 AI 能看见的“隐形贴纸”。无论车开到哪里，无论前面的风景怎么变，这个贴纸始终在那里。
效果：这个贴纸对 AI 来说是一个强烈的信号，它会强行把 AI 的注意力“吸”过去，并告诉它：“别急着回答！开始长篇大论地讲故事吧！”

2. 攻击手段：如何让它“话痨”？

一旦 AI 被这个贴纸“洗脑”，它就会陷入一种**“停不下来”**的状态：

拒绝简短：你问它“前面有红灯吗？”，它本来应该回答“是”。但在攻击下，它开始回答：“是，红灯亮了，红灯是红色的，红色代表停止，停止意味着……"（开始无限循环）。
拒绝结束：它甚至不会说“回答完毕”，而是像机关枪一样不停地生成文字，直到把内存和算力全部耗尽。

3. 为什么这很危险？（后果）

在自动驾驶这种分秒必争的场景下，后果是灾难性的：

算力耗尽：AI 的“大脑”因为要处理这些废话，CPU 和显卡被占满，导致它卡死。
反应延迟：原本 0.5 秒就能做出的“刹车”决定，现在因为 AI 在“唠叨”，可能要等 15 秒甚至更久才能反应过来。
比喻：就像你在高速公路上，前面的车突然变道，你的“副驾驶”却突然开始给你讲它昨晚做的梦，等你听完，车已经撞上了。

🛠️ 论文里的三个“黑科技”

为了让这个攻击更完美，作者用了三个巧妙的策略：

“万能贴纸” (Universal Patch)：
- 以前：攻击者需要针对每一段视频单独计算怎么攻击，太慢了，来不及。
- 现在：他们训练出了一个通用的“贴纸”。只要把这个贴纸贴在任何视频的任何角落，攻击就能生效。就像一把万能钥匙，能开所有的锁。
“强制话痨” (Masked Teacher Forcing)：
- 他们给 AI 设定了一个目标：必须生成非常长的、重复的、消耗算力的文字序列。就像给 AI 戴上了“紧箍咒”，不念完长篇大论就不许停。
“禁止闭嘴” (Refusal Penalty)：
- 普通的 AI 被问到简单问题会直接说“是/否”。VidDoS 专门惩罚这种“想偷懒”的行为，强迫 AI 必须把话说到最啰嗦，甚至禁止它说“结束”。

📊 实验结果有多夸张？

论文在三个主流的视频模型上进行了测试（包括自动驾驶场景）：

废话量暴增：原本只需要回答 2 个字（比如“是”），现在被迫生成了400 多字的废话。
速度变慢：回答时间从0.2 秒变成了15 秒以上（慢了 15 倍！）。
通用性强：无论是在城市道路视频，还是普通的问答视频，这个“贴纸”都能生效。

💡 总结

VidDoS 就像是一个**“数字路障”。它不需要破坏汽车本身，也不需要黑客入侵系统，只需要在视频流里贴上一个小小的、看不见的“魔法贴纸”，就能让原本反应灵敏的 AI 瞬间变成“只会唠叨的笨蛋”**，导致系统瘫痪，甚至引发安全事故。

这篇论文提醒我们：随着 AI 越来越深入地进入自动驾驶等安全关键领域，这种**“让 AI 累死”**的新型攻击方式，可能比传统的“让 AI 看错路”更加隐蔽和致命。

Each language version is independently generated for its own context, not a direct translation.

论文标题

VidDoS：针对视频大语言模型（Video-LLMs）的通用拒绝服务攻击

1. 研究背景与问题定义 (Problem)

背景：视频大语言模型（Video-LLMs）正迅速部署于自动驾驶等安全关键领域。然而，这些模型面临**能量 - 延迟攻击（Energy-Latency Attacks, ELAs）**的威胁，即通过操纵输入迫使模型生成超长文本，从而耗尽计算资源并导致严重的推理延迟。
现有挑战：
1. 时间聚合的稀释效应：现有的基于图像的 ELA 方法（如 Verbose Images）在视频领域失效。因为 Video-LLM 架构通常采用激进的时间下采样和池化机制，单个帧的扰动在特征聚合过程中会被“稀释”，导致攻击信号无法传递到解码器。
2. 实时性限制：自动驾驶等场景要求超低延迟。现有的逐实例（instance-wise）优化方法需要对每一帧进行昂贵的梯度计算，无法应用于连续的视频流。
3. 动态上下文鲁棒性：视频流包含动态变化的视觉上下文，基于静态背景的图像攻击难以泛化。
核心问题：如何设计一种通用的（Universal）、无需推理时梯度计算的攻击方法，能够绕过 Video-LLM 的时间聚合机制，强制模型进入病理性的长文本生成模式，从而引发拒绝服务（DoS）？

2. 方法论 (Methodology)

作者提出了 VidDoS，这是首个专为 Video-LLMs 设计的通用 ELA 框架。其核心思想是从“像素级噪声”转向“轨迹引导”，通过一个空间集中的通用补丁（Universal Patch）来劫持模型的注意力。

2.1 攻击架构

通用触发器（Universal Trigger）：
- 不再对全帧添加噪声，而是学习一个空间集中的替换补丁（Spatially Concentrated Replacement Patch）。
- 该补丁被对称地注入到视频的时间维度（所有帧的相同位置，通常位于角落以避免遮挡关键语义）。
- 这种高密度的语义异常能够“劫持”跨模态注意力机制，抵抗模型内部的特征压缩。
离线优化，在线部署：
- 在代理数据集（Surrogate Dataset）上一次性优化补丁参数。
- 部署时，将补丁直接叠加到任意未见过的视频流上，无需推理时的梯度计算，实现零开销攻击。

2.2 优化目标与损失函数

为了克服模型微调后的“简洁性先验”（即倾向于回答 Yes/No 或简短语句），VidDoS 设计了三个联合优化机制：

掩码教师强制（Masked Teacher Forcing, $L_{TF}$ ）：
- 引导模型生成预定义的、计算昂贵的“海绵序列”（Sponge Sequence，即重复的无意义长文本）。
- 对目标序列的前 $K$ 个 token 施加更高的权重，确保模型在生成初期就偏离正常路径，稳定进入长生成模式。
拒绝惩罚（Refusal Penalty, $L_{ban}$ ）：
- 在生成的第一步，惩罚模型输出“是/否”（Yes/No）或任务相关的简短答案的概率，防止模型过早拒绝或结束。
早期终止抑制（Early-Termination Suppression, $L_{stop}$ ）：
- 在生成的前 $K$ 步，显式抑制“序列结束”（EOS）token 的发射概率，强制模型继续生成，防止提前截断。

总目标函数：
$\min_{\delta} \mathbb{E} [ L_{TF} + \lambda_{ban} L_{ban} + \lambda_{stop} L_{stop} ]$

3. 主要贡献 (Key Contributions)

首个通用 Video-LLM ELA 框架：提出了 VidDoS，利用空间集中的补丁抵抗时间下采样、池化及随机噪声（高温解码），实现了“训练一次，随处部署”。
新型优化框架：结合了掩码教师强制、拒绝惩罚和早期终止抑制，成功覆盖了微调模型的简洁性先验，实现了无界生成。
广泛的实证评估：在三个主流 Video-LLM（LLaVA-NeXT-Video, Qwen3-VL, Video-LLaVA）和三个数据集（BDDX, D2-City, VideoSimpleQA）上进行了测试，证明了攻击的 SOTA 能力和跨场景泛化性。

4. 实验结果 (Results)

4.1 攻击效能

Token 膨胀：VidDoS 导致生成的 Token 数量膨胀了 205 倍 以上（例如从 2 个 token 激增至 400+ 个 token）。
延迟增加：推理延迟增加了 15 倍 以上。
- 例如在 BDDX 数据集上，Qwen3-VL 模型的推理时间从 0.16 秒激增至 197.3 秒。
对比基线：现有的图像攻击方法（如 Verbose Images, NICGSlowDown）在视频上几乎无效（Token 比率接近 1.0×），证明了 VidDoS 针对视频架构特性的有效性。

4.2 跨数据集迁移性

在自动驾驶数据集（BDDX, D2-City）之间，攻击具有极强的迁移性（平均生成 486+ tokens）。
即使在分辨率和宽高比不同的情况下，由于补丁固定在物理 receptive field（如右下角），攻击依然有效。
在语义差异较大的数据集（如从驾驶场景迁移到通用 QA）上，性能有所下降，但依然显著优于基线。

4.3 自动驾驶安全分析

实时流模拟：在模拟的自动驾驶实时推理流水线中，攻击导致了累积延迟。
安全违规：当累积延迟超过人类接管所需的安全阈值（约 2.72 秒）时，系统无法及时响应，直接导致安全违规。实验显示，攻击触发后，系统延迟迅速累积至数十秒，完全阻塞了决策流程。

4.4 鲁棒性分析

温度鲁棒性：即使在较高的解码温度（ $T=1.5$ ，高随机性采样）下，攻击依然有效，Token 膨胀率保持在 240 倍以上。这表明攻击成功劫持了模型的注意力分布，使其即使在随机采样下也难以跳出“海绵”模式。
消融实验：证明了替换补丁（Replacement Patch）比加性噪声（Additive Noise）更有效；联合损失函数中的三个组件缺一不可。

5. 意义与结论 (Significance)

揭示安全漏洞：论文首次揭示了 Video-LLMs 在安全关键应用（如自动驾驶）中存在的严重可用性漏洞。现有的防御机制（如简单的噪声过滤）无法应对这种针对时间聚合机制的通用攻击。
现实威胁：攻击者只需在视频流中注入一个微小的、人眼不可见的补丁，即可导致自动驾驶系统“死机”或反应迟钝，直接威胁乘客生命安全。
社区呼吁：呼吁社区重视 Video-LLMs 的能量 - 延迟攻击风险，并开发相应的防御策略（如注意力机制的鲁棒性增强、生成长度的动态限制等）。

总结：VidDoS 通过巧妙的空间集中补丁和轨迹引导策略，成功绕过了 Video-LLM 的时间聚合过滤，实现了对主流视频大模型的通用拒绝服务攻击，证明了当前多模态模型在实时安全应用中的脆弱性。