A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

本文提出了首个尺寸无关的 BoT 框架,通过将模型权重视为连续信号并利用离散小波变换(DWT)将双向模型缩放统一为信号处理中的上采样与下采样操作,从而在显著降低预训练计算成本的同时实现了 DeiT、BERT 和 GPT 等模型在 GLUE 和 SQuAD 等基准测试上的最先进性能。

Jianlu Shen, Fu Feng, Jiaze Xu, Yucheng Xie, Jiaqi Lv, Xin Geng

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 BoT (双向知识迁移) 的新方法,旨在解决人工智能模型在“变大”和“变小”时遇到的一个核心难题。

为了让你轻松理解,我们可以把训练好的 AI 模型想象成一本**“知识百科全书”**。

1. 核心问题:为什么现在的“搬家”很麻烦?

想象一下,你有一本厚厚的《百科全书》(大模型),里面记录了海量的知识。现在你想:

  • 场景 A(大变小,L2S): 把这本厚书的内容,浓缩成一本便携的“口袋书”(小模型),方便随身携带。
  • 场景 B(小变大,S2L): 你只有一本薄薄的“口袋书”,但你想把它扩充成一本内容详实的《百科全书》。

以前的做法(碎片化):

  • 做口袋书时: 人们像“剪报”一样,从大书里硬剪下一些段落拼凑。这很容易剪断句子,导致知识不连贯(就像把一张高清照片硬切成小块,边缘会模糊)。
  • 做百科全书时: 人们像“复印”一样,把小书的内容复制多份,或者让机器去“猜”缺少的内容。这往往导致新加的内容和原来的风格不搭,或者需要重新花大量时间学习(就像把一张小图强行拉大,变得模糊不清,需要重新修图)。

痛点: 这两种情况以前被当作两个完全不同的问题,用了两套不同的工具,效率低且效果不好。

2. BoT 的创意:把知识看作“信号”

这篇论文的作者提出了一个天才的视角:把模型里的参数(知识)看作是一幅连续的“图像”或“信号”,而不是零散的“积木”。

  • 大模型 = 一张超高清(4K/8K)的照片,细节丰富,连头发丝都看得清。
  • 小模型 = 同一张照片的低分辨率缩略图,虽然模糊,但保留了整体的轮廓和核心结构。

核心洞察: 无论照片分辨率多高,它们描述的都是同一个物体。大模型只是在小模型的基础上,多了一些“高频细节”(比如纹理、边缘的锐度)。

3. BoT 的魔法:小波变换(DWT)

为了解决这个问题,BoT 使用了一种数学工具,叫离散小波变换(DWT)。你可以把它想象成一种**“智能压缩与解压”**的魔法:

  • 从大变小(L2S):就像“压缩图片”

    • 作者把大模型(高清图)通过 DWT 进行“分解”。
    • 它提取出低频部分(也就是图片的轮廓、整体结构,这是最核心的知识)。
    • 直接把这个“核心轮廓”作为小模型的初始化。
    • 比喻: 就像把一张 4K 电影直接压缩成一张清晰的缩略图,虽然看不清细节,但你知道那是谁、在干什么。小模型直接继承了这份“核心智慧”。
  • 从小变大(S2L):就像“无损放大”

    • 作者把小模型(缩略图)作为“核心轮廓”(低频部分)。
    • 对于缺失的“高频细节”(那些模糊的纹理),作者直接填零(假装这些细节暂时不存在,保持干净)。
    • 然后通过逆小波变换(IDWT)进行“重构”。
    • 比喻: 就像你有一张清晰的草图,直接把它放大。虽然放大的瞬间边缘有点模糊(因为填了零),但整体的结构和逻辑是完美的。模型不需要从零开始学习“谁是谁”,它只需要在完美的骨架上“长肉”(学习细节)。

4. 为什么这很厉害?(优势)

  1. 一个框架,双向通用: 以前需要两把不同的钥匙开两把锁,现在 BoT 是一把万能钥匙,既能把大书变薄,也能把薄书变厚。
  2. 不用额外训练(参数免费): 这个过程不需要像以前那样,先训练一个“转换器”模型。它直接通过数学公式完成,零成本、零参数
  3. 省时省力(FLOPs 节省):
    • 实验显示,用 BoT 把大模型变小,可以节省 50% 以上 的计算量。
    • 把小模型变大,可以节省 60% 以上 的训练时间。
    • 比喻: 以前盖大楼要从打地基开始(从头训练),现在 BoT 是直接给你打好地基并立好框架,你只需要装修就行,速度快了一倍多。
  4. 效果更好: 因为保留了“核心结构”,生成的模型在后续任务(如回答问题、识别图片)中表现更好,甚至超过了那些从头训练或传统方法训练的模型。

5. 总结

这篇论文就像给 AI 模型界带来了一种**“通用的翻译器”**。

它告诉我们:不管模型是大是小,它们的核心知识(基因)是相通的。通过小波变换这个数学工具,我们可以像处理音频或图像信号一样,灵活地在不同尺寸的模型之间**“无损”地迁移知识**。

一句话总结: BoT 让 AI 模型在“变大”和“变小”时,不再需要推倒重来,而是像变魔术一样,直接继承核心智慧,既省时间又省算力,还能保持高智商。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →