A quantitative analysis of semantic information in deep representations of text and images

该研究利用信息不平衡度量分析了 DeepSeek-V3 等模型在文本和图像表征中的语义信息分布,发现语义信息在不同语言、模态和架构间呈现收敛趋势,且表征的预测能力显著受层深、模型规模及语言类型的影响,其中独立训练的大规模模型在跨模态预测上甚至优于联合训练的 CLIP 模型。

原作者: Santiago Acevedo, Andrea Mascaretti, Riccardo Rende, Matéo Mahaut, Marco Baroni, Alessandro Laio

发布于 2026-03-19
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对人工智能大脑内部运作的“深度探险”。研究人员试图搞清楚:当不同的 AI 模型(有的处理文字,有的处理图片)看到同一个意思时,它们脑子里的“想法”到底长什么样?它们是不是在某个特定的地方“殊途同归”?

为了回答这个问题,他们发明(或借用)了一个叫"信息不平衡"的尺子。

下面我用几个简单的比喻来解释这篇论文的核心发现:

1. 核心工具:什么是“信息不平衡”?

想象一下,你有两个朋友,小明小红

  • 小明非常了解小红的喜好(比如小红喜欢什么电影,小明能猜得很准)。
  • 但是,小红小明的喜好却不太了解(小明喜欢什么,小红猜不准)。

这时候,他们之间的“了解程度”就是不对称的。

在论文里,研究人员用这个“不对称”来衡量两个 AI 模型(或者同一个模型的不同部分)之间的关系:

  • 如果模型 A 能完美预测模型 B 的输出,说明 A 包含了 B 的所有信息。
  • 如果 A 能预测 B,但 B 猜不出 A,说明 A 比 B“更聪明”或“信息量更大”。
  • 传统的测量方法(像 CKA)只能告诉你它们“像不像”(对称的),但无法告诉你谁包含了谁的信息(不对称的)。这篇论文用的“信息不平衡”尺子,正好能测出这种谁更懂谁的微妙关系。

2. 文字实验:翻译机里的“秘密花园”

研究人员让一个超级强大的 AI(DeepSeek-V3)去读同一句话的六种不同语言(比如中文、英文、意大利语等)。

  • 发现一:意思藏在“中间层”
    想象 AI 是一个多层的大工厂。

    • 第一层(入口):像是刚收到包裹,上面还贴着“这是意大利语”的标签,充满了语言特有的细节(比如语法结构)。
    • 最后一层(出口):像是准备发货,又贴上了“这是英语”的标签,准备生成下一个词。
    • 中间层(核心):这里像是工厂的中央处理室。研究发现,当 AI 处理到中间层时,它把“意大利语”和“英语”的标签都撕掉了,只留下了纯粹的意思。在这个区域,不同语言的 AI 想法高度一致,就像大家突然都讲起了同一种“宇宙通用语”。
  • 发现二:意思不是挤在一个词里,而是散落在各处
    以前有人以为,一句话的意思可能只藏在最后一个词里(就像把秘密写在信纸的最后一行)。但研究发现,意思像撒了一把芝麻,均匀地分布在整句话的很多个词里。

    • 如果你只盯着最后一个词看,你只能猜对一半。
    • 如果你把整句话所有词的平均意思加起来,你才能看清全貌。
  • 发现三:英语是“老大哥”
    虽然大家在中层都能互相理解,但英语的 AI 表示似乎更“强势”。

    • 英语的 AI 能很好地预测其他语言的 AI 在想什么。
    • 但反过来,其他语言的 AI 预测英语时,稍微有点吃力。
    • 这可能是因为英语在训练数据里太多了,英语的 AI 学得更透彻,像个“博学的翻译官”,而其他语言的 AI 稍微有点“跟不上”。
  • 发现四:大模型是“学霸”,小模型是“学渣”
    当拿超级大模型(DeepSeek-V3)和小模型(Llama3-8b)做对比时:

    • 大模型能轻松猜出小模型在想什么(因为大模型见过更多,理解更深)。
    • 小模型很难猜出大模型在想什么。
    • 这就像教授能理解小学生的笔记,但小学生很难完全理解教授的深奥理论。

3. 视觉实验:图片与文字的“跨物种交流”

接下来,他们让 AI 看图片,并让另一个 AI 看图片的标题(文字),看看它们能不能“心意相通”。

  • 发现一:看图方式决定“思考位置”

    • 自动回归模型(像 ImageGPT,像写文章一样看图):它们把图片的“核心意思”也藏在中间层。这就像写文章,中间段落才是核心观点。
    • 编码器模型(像 DinoV2,像一眼扫过):它们把核心意思藏在最后一层。这就像读完书后,最后一刻才总结出中心思想。
    • 结论:不管哪种模型,最懂“意思”的那一层,往往也是它最容易和文字模型“对话”的地方。
  • 发现二:大模型胜过“联姻”
    这是一个非常有趣的发现!

    • 有一对著名的 AI 组合叫 CLIP,它们是专门为了“把图片和文字配对”而一起训练的(就像从小一起长大的青梅竹马)。
    • 另外两个模型 DeepSeek-V3(只读文字)和 DinoV2(只看图)是各自独立训练的(就像两个互不相识的陌生人)。
    • 结果:这两个“陌生人”在理解彼此时,竟然比那对“青梅竹马”配合得更好!
    • 原因:这说明模型的规模(大小)。只要模型够大、够聪明,哪怕没有专门训练它们互相配合,它们也能在深层结构里自然地对齐。这就像两个天才,哪怕没见过面,也能在同一个高度上产生共鸣。

总结:这篇论文告诉了我们什么?

  1. AI 真的在“思考”意思:不管是什么语言,不管是什么图片,AI 在处理的中间阶段,都会剥离掉表面的形式(语言种类、图片像素),汇聚成一种通用的“语义核心”。
  2. 位置很重要:意思不是随便散落的,它在网络的不同深度有不同的表现。找对“层”,就能找到最纯粹的理解。
  3. 规模就是力量:模型越大,理解力越强,甚至能跨越语言和模态(文字 vs 图片)的障碍,实现惊人的对齐。
  4. 不对称是常态:虽然大家能互相理解,但英语和大模型往往处于“更懂对方”的强势地位。

简单来说,这篇论文告诉我们:AI 的世界虽然复杂,但在深处,它们都在用一种相似的、通用的逻辑来理解世界。只要模型够大,它们就能跨越语言和感官的界限,达成一种奇妙的“心灵感应”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →