A Layer-wise Analysis of Supervised Fine-Tuning

该论文通过多层级分析揭示了监督微调中指令遵循能力主要在中间层涌现的机制,并据此提出了一种仅更新关键中间层的“中块高效微调”方法,在显著降低参数开销的同时提升了模型性能。

Qinghua Zhao, Xueling Gong, Xinyu Chen, Zhongfeng Kang, Xinlu Li

发布于 2026-04-15
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做了一次深度的"CT 扫描”,发现了一个非常有趣的现象:当我们教一个 AI 学会“听指令”时,并不是全身每一块肌肉都在用同样的力气,而是有特定的“关键部位”在起作用。

为了让你更容易理解,我们可以把训练大模型想象成培养一个刚毕业的大学生(基础模型)去成为一位专业的“职场导师”(指令遵循模型)

以下是这篇论文的核心发现,用大白话和比喻来讲:

1. 核心问题:为什么教 AI 会“忘本”?

  • 背景:现在的 AI 很聪明,但有时候需要教它怎么说话、怎么回答问题(这叫“监督微调”,SFT)。
  • 痛点:在教它的过程中,AI 经常会“忘本”,也就是把以前学过的知识给忘了(这叫“灾难性遗忘”)。
  • 疑问:我们一直以为教 AI 是全身上下一起学,但到底是在模型的哪一层发生了改变?为什么有的层会变,有的层不变?

2. 研究发现:模型的“三层结构”

研究人员把模型从里到外(从第 1 层到最后一层)像切洋葱一样一层层分析,发现了一个**“中间稳、两头变”**的规律:

  • 底层(前 20%):像“图书馆的书架”
    • 比喻:这里存放着最基础的知识(比如什么是猫,什么是狗)。
    • 现象:在教它新技能时,这一层几乎不动。就像你教一个大学生怎么写报告,不需要重新教他“猫”是什么。这一层很稳定,负责提取基础特征。
  • 顶层(后 20%):像“急转弯的出口”
    • 比喻:这里是直接输出答案的地方,反应最快,但也最“情绪化”。
    • 现象:这一层变化极其剧烈。为了适应新的指令,这里的参数被疯狂修改。但这就像为了赶时间把出口修得太急,容易把原本整齐摆放的书架(旧知识)撞乱,导致“遗忘”。
  • 中间层(20% - 80%):像“大脑的整合区”
    • 比喻:这是最神奇的地方。它既不像底层那么死板,也不像顶层那么冲动。
    • 现象:这里是真正的“学习发生地”。新的指令在这里与旧的知识完美融合。它像一个稳重的中间人,把新学的“职场礼仪”和原有的“基础知识”结合起来,既学会了新东西,又没丢掉旧知识。

3. 提出的新方法:只练“中间肌肉”

基于这个发现,作者提出了一个叫**“中块高效微调”(Mid-Block Efficient Tuning)**的新方法。

  • 以前的做法(LoRA):就像让大学生全身都去报培训班,从头到脚都练一遍。结果不仅累(计算资源浪费),还容易练伤(遗忘旧知识)。
  • 现在的做法:只让中间那部分肌肉(中间层)去锻炼,头和脚(底层和顶层)保持不动。
  • 效果
    • 更聪明:在数学题(GSM8K)测试中,准确率比传统方法高了 10% 以上。
    • 更省钱:因为只训练中间一部分,需要的计算资源更少。
    • 更稳固:因为没动底层和顶层,所以不容易“忘本”。

4. 为什么这很重要?

这就好比装修房子:

  • 以前的装修:不管承重墙还是隔断墙,全拆了重砌,既危险又浪费钱。
  • 现在的装修:发现只要加固和重新设计中间的客厅和卧室(中间层),房子就能住得更舒服,而且**地基(底层)和屋顶(顶层)**都不用动,房子更结实。

总结

这篇论文告诉我们:AI 学习新技能是有“重点区”的。

我们不需要把整个模型都翻个底朝天。只要精准地找到并调整中间那部分,就能用更少的力气,让 AI 变得更听话、更聪明,而且不容易忘记它原本是谁。这为未来更高效、更安全的 AI 训练指明了方向。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →