Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

本文提出了首个用于视觉语言模型的透明电路追踪框架,通过利用转码器、归因图和注意力机制揭示了模型如何分层整合视觉与语义概念,并验证了这些电路在数学推理和跨模态关联中的因果性与可控性。

Jingcheng Yang, Tianhu Xiong, Shengyi Qian, Klara Nahrstedt, Mingyuan Wu

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是为黑盒子里的“超级大脑”做了一次X 光透视,让我们第一次看清了人工智能(特别是那些既能看图又能读文的“多模态模型”)到底是怎么思考的。

想象一下,以前的 AI 就像一个神秘的魔术师:你给它一张图和一个问题,它变出一个答案。我们知道它很厉害,但完全不知道它脑子里的“戏法”是怎么变的。这篇论文就是要把魔术师的袖子掀开,看看里面的机关。

以下是用大白话和生动的比喻对这篇论文核心内容的解读:

1. 核心任务:给 AI 画一张“内部电路地图”

以前的研究主要盯着只懂文字的 AI,而这篇论文专门研究既能看又能读的 AI(比如 Gemma-3)。

  • 比喻:以前的 AI 像是一个只会听指令的翻译官,现在的 AI 像是一个双语导游。这篇论文就是要把这个导游脑子里的“视觉区”和“语言区”是怎么连线的,画成一张详细的电路图

2. 他们用了什么“黑科技”?

为了看清这些电路,作者们发明了一套组合拳:

  • 翻译官(Transcoders)

    • 问题:AI 内部的神经元太乱了,一个神经元可能同时代表“猫”、“红色”和“危险”,这叫“多义性”,很难懂。
    • 解决:作者训练了一种叫“翻译官”的小工具。它把那些乱糟糟的信号,拆解成一个个清晰的、单一含义的“小概念”。
    • 比喻:就像把一锅大杂烩(混合了肉、菜、汤)通过一个特殊的滤网,分离成纯肉、纯菜和纯汤。现在我们可以单独研究“肉”是怎么被处理的了。
  • 因果追踪器(Attribution Graphs)

    • 作用:一旦信号被拆解清楚,他们就开始追踪:是哪个“小概念”在起作用?它是怎么一步步传递到最终答案的?
    • 比喻:就像侦探在案发现场画出的线索图。从“看到火星图片”这个起点,到“回答这是红色星球”这个终点,中间经过了哪些房间(神经元),谁推了谁一把。
  • 注意力热力图(Attention Maps)

    • 作用:专门看 AI 在看图片的哪个部分。
    • 比喻:就像给 AI 戴上了一副热成像眼镜,我们能看到它盯着图片的哪里看(是盯着火星的红色,还是盯着旁边的飞船)。

3. 他们发现了什么惊人的秘密?

通过这张“电路图”,作者们发现了一些以前不知道的秘密:

  • 秘密一:先分家,后合体

    • 发现:AI 在处理的早期阶段,视觉(看图)和语言(读字)是各干各的,互不干扰。只有到了深层(大脑的后半部分),它们才开始真正融合。
    • 比喻:就像两个来自不同国家的翻译,刚开始各说各的话,最后才坐在一起,把意思融合成一句通顺的话。
  • 秘密二:AI 也会“数学幻觉”

    • 发现:当让 AI 做简单的看图算术(比如数手指)时,如果图片里画了 6 根手指,AI 可能会说是 5 根。
    • 原因:这是因为 AI 脑子里的“手”的概念太强了,压过了“数数”的逻辑。它脑子里的电路认为“手”通常就是 5 根,所以强行把第 6 根给“抹掉”了。
    • 比喻:就像你看到一个长得像鸭子的鸟,你的大脑先入为主觉得“这是鸭子”,结果数腿的时候,大脑自动帮你把多出来的腿“忽略”了。
  • 秘密三:视觉也能做数学

    • 发现:有些简单的数学题,AI 并不是在脑子里算数字,而是直接在“视觉空间”里算的。
    • 比喻:如果你问"1+2 等于几”,AI 可能不是把"1"和"2"变成数字相加,而是直接在脑海里把"1 个苹果”和"2 个苹果”的图像拼在一起,直接看到了"3 个苹果”的图像。
  • 秘密四:火星和航天飞机的“脑补”

    • 发现:当 AI 看到火星的图片时,它脑子里不仅想到了“红色星球”,还自动联想到了“航天飞机”。
    • 比喻:这就像你看到“月亮”,脑子里自动跳出“嫦娥”和“玉兔”。AI 的电路里,这些概念是物理连接在一起的,哪怕你只给它看火星,它也会激活航天飞机的电路。

4. 这个研究有什么用?(不仅能看,还能改!)

最酷的是,作者不仅能看,还能动手改(干预实验):

  • ** steering(转向)**:如果我想让 AI 把“火星”看成“地球”,我可以强行修改它脑子里的电路,把“火星”的信号关掉,把“地球”的信号打开。结果,AI 真的就开始描述地球了!
  • Circuit Patching(电路移植):就像给电脑换零件。如果把 A 模型里处理“数数”的电路,移植到 B 模型里,B 模型突然也会数数了。

总结

这篇论文就像是给 AI 做了一次精密的“人体解剖”
它告诉我们:AI 不是魔法,它是由无数个小零件(电路)组成的。只要找到了这些零件,我们就能:

  1. 解释它为什么犯错(比如为什么数错手指)。
  2. 修复它的毛病(通过修补电路)。
  3. 控制它的行为(让它更听话、更安全)。

这为未来制造更透明、更可靠、更像人类一样可理解的 AI 打下了坚实的基础。简单来说,以前我们只能猜 AI 在想什么,现在我们可以拿着图纸,看着它怎么想了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →