Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给未来的“自动驾驶汽车”做一场压力测试，但这次不是测试它们会不会撞墙，而是测试它们会不会被路边的“假广告”给骗得团团转。

想象一下，未来的自动驾驶汽车不再只是靠摄像头看路，它们还装上了一个超级聪明的“大脑”（这就是论文里说的 VLM，视觉 - 语言模型）。这个大脑不仅能“看”到前面有个人，还能用“语言”思考：“哦，前面有个行人，我得停下来，因为交通规则说不能撞人。”

但是，作者们发现，这个看似聪明的“大脑”其实有个巨大的阿喀琉斯之踵（弱点）。

作者们设计了一个实验，就像在路边贴了一张看起来有点奇怪、但又不像贴纸的“魔法海报”（这就是“对抗性补丁”）。

场景一（斑马线）： 一辆车正开向斑马线，上面有个行人。路边有个公交站牌，上面贴着这张“魔法海报”。
- 正常情况： 汽车大脑说：“前面有人，快刹车！”
- 被攻击后： 汽车大脑看着海报，突然“晕”了，它说：“前面路很空，没人，加速冲过去！”（结果就是撞人）。
场景二（高速公路）： 车在高速上开，右边是护栏。路边有个大广告牌贴着“魔法海报”。
- 正常情况： 汽车大脑说：“前面是墙，保持直行。”
- 被攻击后： 汽车大脑说：“右边是出口，快向右转！”（结果就是撞墙）。

为了公平起见，作者选了三种目前最流行的自动驾驶“大脑”架构，就像测试三种不同品牌的手机：

实验结果让人背脊发凉：这三款“大脑”全都被那张小小的“魔法海报”骗倒了！

成功率极高： 只要车离海报 10 到 25 米（这是司机做决定的关键距离），这三款车有 73% 到 76% 的概率会做出错误的危险动作。这比平时偶尔犯错的概率高了十几倍！
不仅是一瞬间： 这种欺骗不是一闪而过，而是持续好几秒（大约 6 到 8 帧画面）。这意味着，就算系统有“三思而后行”的机制，也来不及反应，因为错误一直持续。
不仅是指令错了，连“眼睛”也瞎了： 最可怕的是，这些车不仅做出了错误决定，它们甚至完全看不见行人或护栏了。它们会一本正经地胡说八道，描述一个“空荡荡”的世界。

虽然都输了，但它们输得各有特色，就像三个性格不同的人：

Dolphins（海豚）： 它的弱点在于**“过度信任视觉”**。一旦视觉被干扰，它的整个思考链条就全乱了，连行人这种大目标都看不见。
OmniDrive（全能驾驶）： 它的弱点是**“太稳定了”**。它不管离得远近，只要看到海报，就很容易被骗，缺乏灵活性。
LeapVAD（跳跃式）： 它稍微聪明一点点，在离得近的时候（比如行人就在眼前），它还能勉强认出人来。但是，一旦涉及到复杂的推理（比如判断护栏），它就彻底晕了。

这篇论文就像给自动驾驶行业敲了一记警钟：

一句话总结：
未来的自动驾驶汽车虽然能“看”能“说”，但它们太容易被路边的“假广告”洗脑了。如果不修补这个漏洞，它们可能会在关键时刻把“行人”看成“空气”，把“墙壁”看成“出口”。这篇论文就是告诉大家：别急着上路，先给这些“大脑”戴上防骗面具！

类似论文