One-for-All Model Initialization with Frequency-Domain Knowledge

本文提出了一种名为 FRONT 的新型框架,该框架利用离散余弦变换(DCT)从预训练模型权重中提取低频“学习基因”,从而实现对任意规模下游模型的高效、免训练初始化,并在视觉和语言任务中显著加速收敛并降低训练成本。

Jianlu Shen, Fu Feng, Yucheng Xie, Jiaqi Lv, Xin Geng

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 FRONT 的新方法,旨在解决人工智能模型训练中的一个核心痛点:如何把一个大模型里学到的“通用智慧”,快速、灵活地传授给各种不同大小、不同结构的小模型,而且不需要重新从头训练。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 核心问题:大模型是“全家桶”,小模型是“单人餐”

想象一下,现在的 AI 大模型(比如大语言模型或图像识别模型)就像是一个超级豪华的“全家桶”套餐。它里面包含了各种各样的食材和调料,能做出满汉全席。

  • 现状: 如果你想给一个只有两个人的小家庭(小模型)做饭,直接把这个“全家桶”搬过去显然不行,因为分量太大,而且有些食材(比如特定的架构参数)小家庭根本用不上。
  • 传统做法的尴尬:
    • 从头学(从头训练): 就像让小孩子重新去菜市场买菜、学切菜、学炒菜,耗时耗力,效率极低。
    • 直接剪一刀(参数选择): 以前有人试图直接从大模型里“剪”出一部分参数给小模型用。但这就像从全家桶里随便抓一把菜,可能把关键的“盐”剪掉了,或者把“糖”剪多了,导致做出来的菜味道不对,因为大模型里的知识是相互关联的,剪碎了就失去了灵魂。
    • 用 AI 生成(生成式模型): 另一种方法是训练一个 AI 去“猜”小模型该长什么样。但这就像让一个厨师去猜另一个厨师的菜谱,不仅计算成本极高,而且往往猜不准,只能猜出个大概(比如只猜出放盐,猜不出火候)。

2. 核心发现:智慧的“低频基因”

这篇论文的作者发现了一个惊人的秘密:大模型里真正通用的、核心的智慧,其实都藏在“低频”部分。

  • 比喻:一张模糊但神似的大照片 vs. 一张高清但杂乱的细节图。
    • 想象你有一张非常高清的照片(大模型的权重)。如果你把照片变得非常模糊(只保留低频信息),虽然看不清毛孔和发丝(高频细节),但人的五官轮廓、神态、气质(核心知识)依然清晰可辨。
    • 作者发现,大模型在训练过程中,那些具体的、针对某个任务的细节(比如“这只猫耳朵是尖的”)是高频信息,很容易变;而那些通用的、基础的知识(比如“猫有耳朵”、“眼睛在鼻子上面”)是低频信息,非常稳定,像基因一样。
    • 作者把这种核心知识称为 "Learngene"(学习基因)

3. 解决方案:FRONT —— 提取“学习基因”的魔法

作者提出了 FRONT 框架,它的核心工具是 DCT(离散余弦变换)。你可以把它想象成一个**“智能滤镜”**。

  • 步骤一:提取基因(FRONT)
    作者把大模型的参数放进这个“智能滤镜”里。这个滤镜能把参数分成“低频”和“高频”。

    • 只保留低频部分(那些通用的、稳定的核心知识),把高频部分(那些杂乱的、特定的细节)直接过滤掉。
    • 这就好比从大模型里提取出了最精华的“基因片段”。这个过程不需要任何额外的训练,几秒钟就能在普通电脑上完成。
  • 步骤二:灵活复制(任意大小)
    这是最神奇的地方。提取出来的“基因”是通用的。

    • 如果你想给一个更小的模型用,就像把基因片段剪短一点(截断)。
    • 如果你想给一个更大的模型用,就像把基因片段补全一点(填充零)。
    • 因为“基因”是通用的,所以无论目标模型是胖是瘦、是高是矮,都能完美适配。
  • 步骤三:优化(FRONT+)
    为了效果更好,作者还加了一个“精修”步骤。就像在把基因移植前,先让大模型稍微“冥想”一下,主动把那些容易干扰的“高频噪音”压得更低,让“基因”更纯净。这只需要很少的计算量,就能让效果更上一层楼。

4. 实际效果:快如闪电,省如流水

实验结果表明,这个方法非常厉害:

  • 视觉任务(看图): 以前需要训练 150 个 epoch(轮次)才能达到的效果,用 FRONT 初始化后,只需要 10 个 epoch 就能达到!速度提升了 15 倍
  • 语言任务(读文): 相比从头训练,节省了 40.5% 的计算成本(FLOPs)。
  • 通用性: 无论是把大模型变小,还是把小模型变大,甚至是跨架构(比如从编码器模型传给解码器模型),它都能工作。

总结

简单来说,这篇论文就像发明了一种**“万能知识压缩技术”
它不再把大模型看作一堆死板的参数,而是看作一本
“通用的百科全书”。FRONT 技术能迅速把这本书里最核心的原理(低频基因)** 提取出来,然后像搭积木一样,瞬间组装成适合任何大小、任何形状的“小模型”。

结果就是: 我们不再需要让每个新模型都从零开始“苦读”几年,而是直接给它们注入“天才基因”,让它们出生即巅峰,既省时间又省电费。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →