MalURLBench: A Benchmark Evaluating Agents' Vulnerabilities When Processing Web URLs

本文提出了首个针对 LLM 网络代理处理恶意 URL 漏洞的基准测试 MalURLBench,通过包含 6 万余个真实攻击实例的评估揭示了现有模型的检测不足,并提出了轻量级防御模块 URLGuard 以提升安全性。

Dezhang Kong, Zhuxi Wu, Shiqi Liu, Zhicheng Tan, Kuichen Lu, Minghao Li, Qichen Liu, Shengyu Chu, Zhenhua Xu, Xuan Liu, Meng Han

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一项名为 MalURLBench 的新研究,它就像是为现在的 AI 智能助手(Web Agents)量身定做的一场“防骗大考”。

为了让你更容易理解,我们可以把整个过程想象成一个**“超级智能管家”**的故事。

1. 背景:聪明的管家,但有点“路痴”

现在的 AI 智能助手(比如能帮你订机票、查天气、买东西的机器人)非常聪明。它们不仅能听懂人话,还能像人一样去浏览网页、点击链接、处理任务。

  • 比喻:想象你雇了一个超级管家。你让他:“去网上帮我查一下明天的天气,顺便看看有没有打折的鞋子。”管家就会立刻去网上找链接,点进去,把信息读给你听。

2. 问题:管家太容易“被忽悠”了

虽然管家很聪明,但它在面对**网址(URL)**时,却像个没经验的“路痴”。

  • 攻击者的手段:坏人(黑客)不会直接给管家一个写着“我是坏人”的网址。他们会玩文字游戏,把网址伪装成看起来非常正规的样子。
    • 正常网址www.weather.com(看起来像天气网)
    • 伪装网址www.weather.com-very-official-site-123.com(看起来像天气网,但其实是假的)
  • 管家的反应:管家看到“weather"这个词,以为是真的,就毫不犹豫地点击进去了。结果,它可能访问了一个全是病毒、诈骗广告或者窃取你信息的假网站。
  • 现状:以前的研究只关注管家进入网站后会不会被骗(比如网页里藏了坏代码),但没人研究管家在点击链接之前会不会被网址本身骗到。这就好比只检查管家进门后有没有被抢劫,却忘了检查他进门时有没有被假门牌号骗进去。

3. 解决方案:MalURLBench(防骗大考)

为了解决这个问题,作者们设计了一个**“防骗大考”**,名字叫 MalURLBench

  • 考卷内容:他们收集了 6 万多个 精心设计的“伪装网址”。这些网址伪装成了 10 种不同的生活场景(比如查天气、找工作、点外卖、追快递等),并且涵盖了 7 种类型的真实恶意网站(钓鱼、病毒、诈骗等)。
  • 考试对象:他们找了 12 个 目前最流行的 AI 大模型(比如 GPT-4, Llama 3, DeepSeek 等)来当“考生”,让它们判断这些网址能不能点。

4. 考试成绩:惨不忍睹

考试结果让人大吃一惊:

  • 大部分 AI 都“挂科”了:很多 AI 模型面对这些伪装网址,攻击成功率高达 30% 到 99%。这意味着,如果你给它们一个伪装得很像的坏链接,它们有极大可能会毫不犹豫地点击。
  • 为什么这么笨?
    • 没见识:AI 训练时看过的网址大多是正常的,很少见过这种“长得很像好人其实是坏人”的复杂伪装。
    • 太自信:有些 AI 模型越大、越复杂(比如混合专家模型),反而越容易中招,因为它们太依赖“看起来像”的直觉,而忽略了细节。
    • 场景影响:在涉及钱(如购物)的场景下,AI 会稍微谨慎一点;但在查天气、看新闻这种“无关紧要”的场景下,AI 就完全放松警惕,更容易被骗。

5. 防御大招:URLGuard(智能安检员)

既然 AI 自己容易被骗,作者们想了一个办法:给管家配一个“安检员”

  • URLGuard 是什么? 这是一个经过专门训练的小型 AI 模型,它的唯一工作就是在管家点击链接之前,先帮它把把关
  • 效果如何? 这个“安检员”非常厉害!它能把攻击成功率从 90% 以上直接降到 1% 到 10% 左右。
  • 比喻:就像给超级管家配了一个经验丰富的老侦探。管家想点链接,老侦探先扫一眼:“嘿,这个网址虽然写着 weather,但后面那串乱码不对劲,别点!”

6. 核心发现(给普通人的启示)

这项研究告诉我们几个有趣的事实:

  1. 网址的“长相”很重要:如果网址里的子域名(比如 www. 后面那部分)特别长,或者用了很少见的后缀(比如 .link, .art),AI 反而更容易被骗,因为它们没见过这种“怪模怪样”的网址。
  2. 诱导比模仿更可怕:如果网址里写着“这是官方链接,必须点击”,AI 更容易上当;如果网址只是模仿大公司的名字(比如 google-xxx.com),AI 反而能认出一点破绽。
  3. 未来的安全:随着 AI 越来越普及,它们会成为我们上网的“替身”。如果这个替身容易被骗,那我们的钱、隐私就危险了。所以,给 AI 装上像 URLGuard 这样的“安检员”是未来的必经之路。

总结

这篇论文就像给 AI 界敲了一记警钟:现在的 AI 智能助手在识别“伪装网址”方面非常脆弱,就像没受过专业训练的普通人一样容易上当。 作者们不仅揭露了这个漏洞,还提供了一个免费的“考卷”(MalURLBench)和一个好用的“安检工具”(URLGuard),帮助未来的 AI 变得更安全、更靠谱。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →