Bayesian Influence Functions for Hessian-Free Data Attribution

本文提出了一种名为局部贝叶斯影响函数(BIF)的新方法,通过利用随机梯度 MCMC 采样估计损失景观统计量来替代传统的 Hessian 矩阵求逆,从而克服了深度神经网络中 Hessian 不可逆及高维参数空间的挑战,实现了对数十亿参数模型的高效数据归因并取得了预测重训练实验的最先进结果。

Philipp Alexander Kreer, Wilson Wu, Maxwell Adam, Zach Furman, Jesse Hoogland

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“贝叶斯影响函数”(Bayesian Influence Functions, BIF)**的新方法,用来解决深度学习模型中一个非常头疼的问题:如何知道模型做出的某个决定,具体是受哪条训练数据的影响?

为了让你轻松理解,我们可以把训练一个大型人工智能(AI)模型想象成教一个超级聪明的学生(模型)通过阅读海量书籍(训练数据)来通过考试

1. 旧方法遇到了什么麻烦?(经典的“影响函数”)

以前,科学家想找出“哪本书教了学生这个知识点”,他们使用一种叫“经典影响函数”的方法。

  • 它的原理:想象一下,如果我从学生的书架上拿走一本书,他的成绩会怎么变?
  • 它的局限
    1. 太复杂:现在的 AI 模型(像大语言模型)有几十亿个参数,就像学生脑子里有几十亿个神经突触。要精确计算拿走一本书的影响,需要解一个极其复杂的数学方程(涉及“海森矩阵”的逆运算)。这就像要求你在一秒钟内算出拿走一本书后,学生脑子里几十亿个神经元如何重新排列,这在数学上几乎是不可能的(矩阵不可逆)。
    2. 太慢:为了近似计算,以前的方法(如 EK-FAC)需要花大量时间先“拟合”一个复杂的结构,就像为了查一本书的影响,先要把整个图书馆的目录重新整理一遍。如果只查几本书,这太不划算了。

2. 新方法的创意:从“单点计算”到“观察波动”

这篇论文提出的BIF(贝叶斯影响函数)换了一种思路。它不再试图精确计算“拿走一本书”后的确切变化,而是观察“如果书架上的书稍微有点晃动,学生的反应会有什么波动”

核心比喻:摇晃的书架与统计波动

想象一下,你不再试图计算拿走一本书的精确后果,而是:

  1. 轻微摇晃书架:你让书架上的书(训练数据)产生一点点随机的、微小的扰动(就像用一种叫 SGLD 的采样技术,让模型参数在最优解附近“抖动”)。
  2. 观察学生的反应:你观察当书架晃动时,学生做某道题的得分(损失函数)是如何波动的。
  3. 寻找相关性
    • 如果书架上书 A 稍微动一下,学生做题 B 的分数就剧烈波动,那就说明书 A 和题 B 关系密切(书 A 影响了题 B)。
    • 如果书 A 动了,题 B 的分数纹丝不动,那它们就没关系。

BIF 的核心就是计算这种“波动的相关性”(协方差)。它不需要解那个复杂的数学方程(不需要求逆矩阵),只需要通过大量的随机采样(摇晃书架),统计一下数据点之间的“共舞”关系。

3. 为什么这个方法很厉害?

A. 不需要“求逆”,直接“看热闹”

  • 旧方法:像是一个数学家,试图用微积分精确推导每一步,结果被复杂的公式卡住了(海森矩阵不可逆)。
  • 新方法 (BIF):像是一个统计学家,站在旁边看热闹。它不关心具体的数学推导,只关心“当数据 A 变化时,结果 B 是否也跟着变化”。这种方法不需要计算那个让人头大的逆矩阵,所以它可以直接用在那些结构复杂、参数巨大的现代大模型上。

B. 像“显微镜”一样看清细节(逐 Token 分析)

  • 旧方法:通常只能告诉你“整篇文章”对“整道题”的影响。
  • 新方法 (BIF):可以精细到每一个字(Token)
    • 例子:如果模型翻译 "She" 为 "elle"(法语),BIF 能精准地告诉你,是因为训练数据里有一句话同时出现了 "She" 和 "elle"。它能捕捉到这种细粒度的语义联系(比如同义词、翻译、数字写法等),就像用显微镜看到了细胞层面的互动。

C. 省钱又省力(计算效率)

  • 旧方法:如果要查很多问题的影响,它需要先花巨资“建库”(拟合阶段),建好库后查得快。但如果只查几个问题,建库的成本就太高了。
  • 新方法 (BIF):没有“建库”的昂贵成本。它想查就查,查得越多越划算。对于小规模、精细化的查询(比如只想知道模型为什么对某个特定单词敏感),BIF 比旧方法快得多,尤其是在模型参数达到几十亿甚至上百亿时,优势巨大。

4. 实验结果:它真的管用吗?

作者做了很多实验来验证:

  1. 看图说话:在图像识别模型中,BIF 找出的“最有影响力的训练图片”和旧方法找出的非常相似(比如问一只狗,它都能找到其他狗的图片)。
  2. 预测重训:他们模拟“删掉一部分数据重新训练”,看 BIF 能否预测出模型性能的变化。结果显示,BIF 的预测能力达到了最先进水平(SOTA),和最强的旧方法不相上下,甚至在某些情况下(数据量小、模型大)表现更好。
  3. 大模型缩放:当模型从几百万参数增加到几十亿参数时,旧方法(EK-FAC)变得非常慢且占用大量内存,而 BIF 依然能保持高效。

总结

这篇论文就像给 AI 解释世界提供了一把新的“放大镜”

  • 以前:我们想找出数据的影响,就像试图用一把生锈的、沉重的钥匙去开一把复杂的锁(计算逆矩阵),经常打不开,或者太慢。
  • 现在:BIF 告诉我们,不需要硬开锁。我们只需要轻轻摇晃一下锁(随机采样),听听里面的声音(统计波动),就能知道哪根钥匙齿(哪条数据)和锁芯(模型行为)是匹配的。

这种方法不需要复杂的数学推导,能处理超大规模的模型,还能看清每一个字的细微影响,是理解 AI 黑盒、提高 AI 安全性和可解释性的重要一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →