DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

DiaBlo 提出了一种仅需更新模型权重矩阵对角块的高效微调方法,该方法在无需低秩分解或特殊初始化策略的情况下,凭借理论保证和实验验证,实现了与全量微调相当的性能,同时保持了与 LoRA 相当的内存效率和训练速度。

Selcuk Gurses, Aozhong Zhang, Yanxia Deng, Xun Dong, Xin Li, Naigang Wang, Penghang Yin, Zi Yang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DiaBlo 的新方法,用来给大型人工智能模型(LLM)“微调”(Fine-tuning)。

为了让你轻松理解,我们可以把训练一个大模型想象成装修一栋超级豪华的摩天大楼

1. 背景:为什么要“装修”?

  • 大模型(LLM):就像一栋已经建好的、拥有数亿个房间的摩天大楼。它很聪明,能写诗、写代码,但它是在“通用知识”上训练的,就像大楼里全是通用的家具。
  • 微调(Fine-tuning):如果你想让这栋楼专门用来做“医院”或者“学校”,你需要把里面的家具换一换,或者重新布置一下。这就是微调。
  • 全量微调(Full Fine-tuning):传统的做法是把整栋楼的所有房间都重新装修一遍。效果最好,但成本极高,需要巨大的资金(算力)和人力(显存),普通公司根本玩不起。
  • 参数高效微调(PEFT):为了省钱,大家想出了“只装修部分房间”的办法。目前最流行的是 LoRA

2. 现有的方案(LoRA)有什么毛病?

LoRA 的做法有点像:你不在大楼里直接换家具,而是给每个房间挂上一套临时的、可移动的屏风(低秩矩阵)。

  • 优点:屏风很轻,不用拆墙,省空间。
  • 缺点
    1. 太复杂:这套屏风是由两块板子拼起来的(矩阵乘法),拼的时候需要非常小心,否则容易散架(训练不稳定)。
    2. 需要“魔法”:为了让屏风挂得稳,你需要特殊的胶水(特殊的初始化方案)和特殊的安装技巧(复杂的优化策略)。如果胶水没涂好,装修效果就很差。

3. DiaBlo 是什么?(核心创新)

DiaBlo 的作者提出了一个更简单、更粗暴的想法:别搞那些复杂的屏风了,直接只换“对角线”上的房间!

想象一下,这栋大楼的平面图是一个巨大的网格。

  • LoRA 是在网格上贴了一层薄薄的、复杂的透明膜。
  • DiaBlo 的做法是:把大楼的地板切成很多个小方块(块状矩阵),然后只装修那些位于“对角线”上的方块房间(比如左上角、正中间、右下角的房间),其他房间(非对角线)完全不动,保持原样。

为什么这很酷?

  1. 简单直接:不需要拼屏风,不需要胶水。直接拿起锤子(梯度下降)敲对角线的房间就行。
  2. 更稳:因为不需要复杂的拼接,装修过程非常平稳,不容易翻车。
  3. 效果惊人:论文发现,只要把“对角线”上的房间装修好,整栋大楼的功能就完全够用了,甚至效果比那些复杂的屏风(LoRA)还要好!

4. 理论上的“魔法”

作者还从数学上证明了:

  • 在大多数情况下,大模型里的数据其实是有规律的(低秩特性)。
  • 这就好比,虽然大楼有 1000 个房间,但真正决定大楼功能的“核心房间”其实就在那几条对角线上。
  • 只要把这几条对角线修好,剩下的房间(非对角线)其实对功能影响很小。所以,只修对角线,就能达到和“全楼装修”几乎一样的效果。

5. 实验结果:真的好用吗?

作者用了很多测试来验证,包括:

  • 常识推理(比如:如果我把鸡蛋放在冰箱里,它会变冷吗?)
  • 数学计算(解数学题)
  • 写代码
  • 安全对齐(让 AI 不说脏话、不回答有害问题)

结果令人震惊:

  • DiaBlo 在几乎所有任务上都打败了目前最流行的 LoRA 及其各种升级版(如 DoRA, PiSSA 等)。
  • 即使在内存非常紧张的情况下(比如把模型压缩到只有 2 位精度,就像把大楼的墙壁刷得很薄),DiaBlo 依然表现优异,而其他方法则彻底“崩盘”。
  • 它不需要特殊的胶水(初始化),也不需要复杂的优化技巧,直接就能跑,而且跑得很快。

总结

DiaBlo 就像是一个极简主义的装修大师
以前的装修大师(LoRA)会给你设计一套复杂的、需要精密计算的屏风系统,虽然轻便但容易出错。
DiaBlo 大师说:“别整那些虚的,直接把对角线上的房间刷个新漆,剩下的别动。”
结果发现,只刷对角线,不仅省钱、省力、速度快,而且装修出来的效果比那些花里胡哨的屏风还要好!

这篇论文告诉我们:有时候,少即是多(Less is More),最复杂的数学结构不一定是最有效的,简单直接的结构往往能解决大问题。