Circuit Insights: Towards Interpretability Beyond Activations

该论文提出了 WeightLens 和 CircuitLens 两种互补方法,通过直接从权重解读特征以及分析组件间的交互动态,突破了传统基于激活的电路发现局限,实现了无需外部模型或数据集的更鲁棒、可扩展的机械可解释性分析。

Elena Golimblevskaia, Aakriti Jain, Bruno Puri, Ammar Ibrahim, Wojciech Samek, Sebastian Lapuschkin

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给复杂的“黑盒”人工智能(AI)做X 光透视电路检修

想象一下,大型语言模型(比如现在的聊天机器人)就像一个超级复杂的巨型城市。这个城市里有无数个“神经元”(就像城市里的居民或路灯),它们共同工作来产生回答。但问题是,我们不知道具体是哪个居民在什么时候做了什么,也不知道他们是如何互相配合的。

以前的研究方法就像是在观察居民的活动(看他们什么时候亮灯,也就是“激活”),但这有个大问题:有时候灯亮了,但你不知道是因为有人按了开关,还是因为电路短路,或者是因为隔壁邻居的干扰。而且,以前的方法往往需要人工去一个个检查,或者依赖另一个更聪明的 AI 来猜,既慢又不靠谱。

这篇论文提出了两个新工具:WeightLens(权重透镜)CircuitLens(电路透镜),它们不需要盯着居民的活动看,而是直接去研究城市的建筑图纸和电路连接

1. 核心问题:为什么以前的方法不够好?

以前的方法主要看“激活”(Activation),就像看路灯什么时候亮

  • 缺点:路灯亮了,可能是因为你按了开关,也可能是因为有人路过碰了一下,甚至可能是电压不稳。如果只看灯亮,你很难分清真正的“意图”是什么。而且,如果城市太大(数据太多),人工去数哪盏灯亮了,根本数不过来。

2. 新工具一:WeightLens(权重透镜)—— 直接看“建筑图纸”

WeightLens 就像是一个不看居民活动,直接看建筑图纸的侦探。

  • 它的原理:它不看路灯什么时候亮,而是直接看电线是怎么连接的。在 AI 模型里,这些连接就是“权重”(Weights)。
  • 比喻:想象你在研究一个复杂的乐高积木城堡。以前的方法是等城堡亮灯了,再去猜是哪个积木在发光。而 WeightLens 是直接拿起说明书(权重),看哪两块积木是紧紧扣在一起的。
  • 好处
    • 不需要数据:它不需要拿成千上万篇文章去测试,直接看模型内部结构就能知道某个功能大概是什么。
    • 精准:对于某些固定的功能(比如识别“苹果”这个词),它发现只要看到特定的积木连接,就能确定它在干什么,不需要等它真的去“亮灯”。
    • 结果:它能解释很多功能,而且解释得和以前那些依赖大量数据的方法一样好,甚至更好。

3. 新工具二:CircuitLens(电路透镜)—— 追踪“电流的流向”

CircuitLens 则像是追踪电流路径的工程师。它知道有些功能不是靠一个积木完成的,而是靠一群积木组成的电路(Circuit)协作完成的。

  • 它的原理:它把“输入”(比如你问的问题)和“输出”(AI 的回答)之间的完整电路路径找出来。
  • 比喻
    • 以前的方法可能只告诉你:“这个房间亮灯了,因为有人在里面。”
    • CircuitLens 会告诉你:“这个房间亮灯,是因为A 房间的人按了开关,信号传到了B 房间的继电器,最后才点亮了C 房间的灯。而且,这个灯亮起来是为了给 D 房间的人发信号。”
  • 解决“多义性”问题:有时候一个功能(比如“灯”)既可以是“照明”,也可以是“装饰”。CircuitLens 通过把不同的“电路模式”聚类(分组),能发现:哦,原来这组电路是专门用来“照明”的,那组是专门用来“装饰”的。这样就把混乱的信息理清楚了。
  • 好处:它能发现那些单纯看“灯亮”发现不了的深层规律,比如某个功能虽然不常亮,但一旦亮起,就会对最终的输出产生巨大的影响。

4. 这两个工具合起来有什么用?

这就好比WeightLens 给了你静态的地图(哪里有线连着哪里),而 CircuitLens 给了你动态的交通监控(车是怎么跑的,哪条路最堵)。

  • 更 robust(鲁棒/可靠):以前依赖大模型去猜解释,现在有了这两个工具,解释变得更可靠,不再那么依赖外部的大模型或巨大的数据集。
  • 更高效:不需要跑几亿条数据来训练解释器,直接分析模型结构就能得到很多结论。
  • 更清晰:能把那些模棱两可、让人看不懂的 AI 行为,拆解成清晰的“输入 - 处理 - 输出”链条。

总结

这篇论文就像是给 AI 科学家提供了一套新的显微镜和电路图

  • 以前:我们只能看到 AI 在“做什么”(输出结果),或者看到它“什么时候动”(激活),但不知道它“为什么动”以及“内部怎么动”。
  • 现在:通过 WeightLensCircuitLens,我们可以直接看到 AI 的内部构造和运作逻辑。这让 AI 不再是黑盒子,而是一个我们可以理解、甚至能“检修”的透明机器。这对于让 AI 更安全、更可靠地进入医疗、法律等敏感领域至关重要。

简单来说,他们不再只是观察 AI 的“表情”(激活),而是开始研究 AI 的“大脑结构”(权重和电路),从而真正读懂了 AI 在想什么。