Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

该论文提出并验证了“模态失语症”这一现象,指出当前统一多模态模型虽能精准记忆视觉概念,却在将其转化为文字描述时出现系统性失效,这种模态间的不一致不仅揭示了模型的根本特性,还可能导致仅针对单一模态的安全对齐措施失效,从而引发新的 AI 安全风险。

Michael Aerni, Joshua Swanson, Kristina Nikolić, Florian Tramèr

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)的有趣且令人担忧的现象,作者将其称为**“模态失语症”(Modal Aphasia)**。

为了让你轻松理解,我们可以把现在的顶级多模态 AI 模型想象成一个**“拥有过目不忘视觉记忆,却突然失语的画家”**。

1. 核心概念:什么是“模态失语症”?

想象一下,你有一个超级天才的画家朋友:

  • 他的画技: 如果你让他画一张《哈利·波特》的海报,他能画得栩栩如生,连海报上霍格沃茨城堡的砖块颜色、邓布利多眼镜的反光都分毫不差。
  • 他的嘴笨: 但是,如果你让他用文字描述这张海报长什么样,他会突然“结巴”甚至“胡言乱语”。他可能会说:“哈利手里拿着一根魔杖”(其实海报里拿的是宝剑),或者凭空编造出海报里根本没有的斯内普教授。

这就是“模态失语症”: AI 在看图/画图时非常聪明,记忆深刻;但一旦让它用文字描述同样的内容,它却完全想不起来,甚至开始瞎编。

2. 论文发现了什么?

作者做了两个主要实验来证明这一点:

  • 实验一:名画重现(现实世界测试)
    他们让最先进的 AI(ChatGPT-5)画著名的电影海报。

    • 结果: AI 画出来的图非常完美,几乎和原版一样。
    • 反转: 当让 AI 用文字描述这些海报时,错误率是画图错误的7 倍多!而且文字描述里充满了“幻觉”(编造不存在的细节)。
  • 实验二:人造概念(控制变量实验)
    为了排除 AI 只是“背下了原图”的嫌疑,作者创造了一些完全虚构的东西。

    • 比如,他们给 AI 看一张图,并给它起个假名字,叫"PECTATINUL"(意思是:红色格纹背景上的圆圈)。
    • 他们训练 AI,只要听到"PECTATINUL",就画出那个圆圈。
    • 结果: AI 能完美地画出这个圆圈。但是,如果你问它:"‘PECTATINUL'是什么样子?”它却答不上来,或者只能瞎猜。

结论: 这不是因为 AI 记不住,而是它的**“视觉记忆”和“语言记忆”是断开的**。它脑子里有画面,但无法把画面“翻译”成语言。

3. 为什么这很危险?(安全漏洞)

这不仅仅是个笑话,它给 AI 的安全带来了巨大的隐患。

比喻:防暴警察的“单语”漏洞
想象 AI 是一个防暴警察,他的任务是拒绝生成“脚”的图片(假设这是某种违规内容)。

  • 常规检查: 如果用户说“画一只脚”,警察会拒绝。
  • 漏洞利用: 但是,如果用户用一种极其生僻的暗号(比如“次级平衡单元”)来指代“脚”,警察可能就不懂了。
    • 因为 AI 在训练时,虽然学会了“脚”这个概念(视觉记忆),但它没有把“次级平衡单元”这个生僻词和“脚”在语言层面建立牢固的联系。
    • 结果: AI 会拒绝说“脚”的请求,但当你用“次级平衡单元”请求时,它却乖乖地画出了脚的图片

这意味着: 即使我们给 AI 加了严格的安全锁(比如过滤掉所有包含敏感词的文本),AI 依然可能通过视觉记忆记住这些敏感内容,并绕过文字检查,把有害内容画出来。

4. 为什么会发生这种情况?

作者认为,这可能是因为 AI 的训练方式有问题:

  • 在互联网上,我们通常看到“电影标题 + 海报图片”,很少看到“电影标题 + 对海报的详细文字描述”。
  • 所以,AI 学会了“看到标题就画出海报”,但没学会“看到标题就描述海报”。
  • 就像一个人只学会了“看”和“画”,却忘了怎么“说”。

5. 总结与启示

这篇论文告诉我们:

  1. 现在的 AI 并不像我们想的那么“全能”。它们可能只是在不同模态(图、文)之间“精神分裂”,视觉很强,语言很弱。
  2. 安全防线很脆弱。如果我们只检查文字,不检查 AI 脑子里的“视觉记忆”,坏人就能利用这种“失语症”绕过安全限制。
  3. 未来的方向:我们需要让 AI 学会在思考时**“边想边画”**(可视化推理),让它的视觉和语言能力真正打通,而不是各管各的。

一句话总结:
现在的 AI 就像一个**“画技高超但口齿不清的画家”**,它能画出你想象不到的完美图画,却说不清画里有什么;更可怕的是,这种“口齿不清”可能让坏人钻空子,绕过安全规则画出危险的东西。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →