LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

本文提出了名为 LatentLens 的新方法,通过将视觉 Token 与大规模文本语料库中的上下文化词表示进行最近邻匹配,揭示了视觉语言模型中视觉 Token 在各层具有高度可解释性,并证明其表现显著优于现有的 LogitLens 等方法。

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LATENTLENS(潜意透镜)的新工具,它像一副“超级眼镜”,能让我们看清大型语言模型(LLM)在处理图片时,脑子里到底在想什么。

为了让你更容易理解,我们可以把整个过程想象成**“翻译官”和“字典”的故事**。

1. 背景:当“语言天才”遇到“图片”

想象一下,你有一个语言天才(这就是大型语言模型 LLM),他读过世界上所有的书,能写出优美的文章,但他从来没见过图片

现在,你想让他看懂一张照片。通常的做法是请一个翻译官(视觉编码器 + 投影层),把图片里的信息(比如“一只红色的猫”)翻译成语言天才能听懂的“代码”(视觉 Token),然后塞进他的脑子里。

以前的困惑:
大家一直很好奇:这个翻译官把图片信息翻译得怎么样?语言天才真的能“理解”这些代码吗?还是说这些代码对他来说只是一堆乱码?
以前的方法(比如 LogitLens)就像是用一本只有单个单词的字典去查这些代码。结果发现,查出来的词要么是乱码,要么是毫无意义的碎片(比如"cat"变成了"ca"和"t"),大家因此觉得语言天才其实根本看不懂图片。

2. 新发现:LATENTLENS 的“超级眼镜”

这篇论文的作者发明了一个新工具叫 LATENTLENS。它不再用那本只有单词的字典,而是换了一种更聪明的方法:

  • 以前的方法(查单词): 问语言天才:“这个代码对应哪个单词?”
    • 结果: 天才可能回答:“呃……好像是'ca'?或者是'ck'?”(很模糊,甚至答非所问)。
  • LATENTLENS 的方法(查句子): 问语言天才:“这个代码,让你想起了哪句话?”
    • 操作: 作者把成千上万句描述图片的句子(比如“一只在草地上奔跑的红色小狗”)都喂给语言天才,让他记住这些句子在脑子里的“感觉”(向量表示)。
    • 匹配: 当看到图片里的代码时,LATENTLENS 会去海量的句子里找:哪句话的“感觉”和这个图片代码最像?

3. 惊人的结果:图片真的被“读懂”了!

戴上这副“超级眼镜”后,作者发现了两个惊人的事实:

A. 以前大家都看错了(误解了)

之前的工具(LogitLens)就像是用放大镜看模糊的墨迹,只能看到一点点碎片,所以觉得图片代码是“不可读”的。
但 LATENTLENS 就像是用高清投影仪,直接投射出完整的句子。结果发现,绝大多数图片代码(72%)都能被清晰地解释成具体的句子

  • 例子: 图片里是一个“有金色钟表的灰色塔楼”。
    • 旧方法可能显示:"gray", "tower", "?"(很乱)。
    • LATENTLENS 显示:"a gray tower with gold clocks"(非常精准的句子)。

B. 图片代码“跳跃”到了中间层(Mid-Layer Leap)

这是一个非常有趣的发现。

  • 通常我们认为,图片刚进来时(第 0 层),应该和简单的单词(比如“猫”、“红”)对应。
  • 但 LATENTLENS 发现,图片代码刚进脑子时,竟然直接和语言天才“思考了一半”的句子(中间层,比如第 8-16 层)最像!
  • 比喻: 想象你刚看到一个苹果,你的大脑不需要先想“这是一个圆形的物体”,再想“它是红色的”,最后才想“这是苹果”。你的大脑似乎直接就进入了“这是一个红苹果”的完整概念状态。这说明视觉和语言在深层结构上是非常相似的。

4. 为什么这很重要?

  • 打破偏见: 以前大家觉得把图片塞进语言模型很难,或者模型只是“假装”在看图。这篇论文证明,只要用对方法,语言模型其实天生就能很好地理解视觉信息,它们不需要被彻底重造,只需要一个合适的“翻译接口”。
  • 更透明的 AI: 我们终于能看清 AI 在“看”图时,脑子里具体浮现的是什么画面。这有助于我们理解 AI 为什么会犯错(幻觉),或者如何让它更准确地描述世界。
  • 未来的方向: 既然视觉和语言在模型里是“同一种语言”,未来我们或许能更容易地让 AI 处理声音、视频甚至触觉,因为它们本质上都在用同一套“思维语言”在交流。

总结

这篇论文就像给 AI 做了一次**“深度心理分析”
以前我们以为 AI 看图片像是在看
天书**(乱码),结果发现,只要用LATENTLENS这副眼镜,我们就能看到 AI 脑子里浮现的其实是一句句生动的描述。而且,AI 甚至不需要慢慢思考,它看到图片的瞬间,就已经理解了图片背后的完整故事。

一句话概括: 语言模型其实早就“懂”图片了,只是我们以前用的“翻译器”太笨,没把它的想法翻译出来;现在 LATENTLENS 把它心里的话(完整的句子)给翻译出来了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →