Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping

该论文提出了名为 DiT-BlockSkip 的内存高效微调框架,通过结合基于时间步的动态补丁采样和基于交叉注意力掩码的块跳过机制,在显著降低显存占用以支持端侧部署的同时,保持了扩散 Transformer 在个性化图像生成任务中的高质量表现。

Sunghyun Park, Jeongho Kim, Hyoungwoo Park, Debasmit Das, Sungrack Yun, Munawar Hayat, Jaegul Choo, Fatih Porikli, Seokeon Choi

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DiT-BlockSkip 的新方法,旨在解决一个非常棘手的问题:如何在手机或普通电脑上,用很少的内存,把强大的 AI 绘画模型(Diffusion Transformers)“教会”画特定的东西(比如画你自家的猫,或者你设计的独特玩偶)。

为了让你更容易理解,我们可以把训练 AI 模型想象成**“教一个超级大厨做一道新菜”**。

1. 背景:为什么现在很难“教”AI?

  • 现状:现在的 AI 绘画模型(如 FLUX)非常强大,像是一个拥有整个图书馆食谱的超级大厨。如果你想让它学会画“你家的猫”,通常的做法是给它看几张家猫的照片,让它重新学习。
  • 问题:这个“重新学习”的过程(微调)非常烧钱、烧电、烧内存
    • 这就好比,为了教大厨做一道新菜,你不得不把整个图书馆的食谱全部搬进厨房,还要把每一页都翻一遍、记一遍。
    • 结果就是:只有拥有昂贵显卡(大厨房)的实验室才能做这件事,普通人的手机(小厨房)根本放不下,一运行就“内存爆炸”。

2. 核心方案:DiT-BlockSkip(两步走策略)

为了解决这个问题,作者提出了两个聪明的“偷懒”技巧,既省内存,又不让大厨变笨。

技巧一:动态切片采样 (Dynamic Patch Sampling)

——“看山看水,远近有别”

  • 传统做法:无论教什么,都一直盯着高清大图看。这就像教大厨做菜时,无论看哪一步,都要用 4K 显微镜看食材纹理,非常费眼(费内存)。
  • 新方法:根据**“噪音程度”(可以理解为学习的阶段)来调整看图的“焦距”**。
    • 刚开始学(高噪音/大步骤):这时候画面很模糊,看不清细节。这时候我们把视野拉远,只看大块的色块和整体轮廓(比如先看清这是只猫,而不是先看清猫毛)。这就好比用广角镜头看全景,不需要太高的分辨率,省内存。
    • 快学完时(低噪音/小步骤):这时候画面清晰了,需要画细节。这时候我们把视野拉近,只看局部特写(比如猫耳朵的绒毛)。这就好比用微距镜头看细节。
  • 比喻:就像你教人画画,先让他看整体构图(不用太清晰),最后再让他画眼睛和胡须(需要清晰)。这样既不用一直盯着高清大图,又能学会所有东西。

技巧二:块跳过与残差预计算 (Block Skipping with Residual Feature)

——“只记重点,跳过废话”

  • 传统做法:AI 模型由很多层“大脑皮层”(Transformer 块)组成。传统微调时,每一层都要重新计算、重新记忆,非常累。
  • 新方法
    1. 找重点:作者发现,并不是每一层大脑都对“画猫”这件事重要。有些层只负责画背景,有些层负责画猫。通过一种“注意力测试”,他们发现中间层对画猫最关键,而头尾的层相对不那么重要。
    2. 跳过废话:在训练时,直接跳过那些不重要的层(头尾),只训练中间的关键层。
    3. 预存“答案”:既然跳过了,那被跳过的层原本该产生的变化怎么办?作者想了一个绝招:提前算好
      • 在正式训练前,先算出被跳过的那些层“输入”和“输出”的差值(就像提前算好这道菜里盐放了多少,不用每次都重新称)。
      • 正式训练时,直接把算好的“差值”加上去,就不用让那些层再工作一次了。
  • 比喻:就像你背课文,有些段落(头尾)是通用的,不用每次都背;只有中间那段(关键情节)需要重点背。而且,你提前把通用段落的“总结”写在便签上,复习时直接看便签,不用把整本书再读一遍。

3. 效果如何?

  • 省内存:这种方法能把训练时的内存占用减少 46% 到 65%
    • 比喻:原本需要 22GB 内存(像一个大仓库)才能跑的训练,现在 11GB(像个小衣柜)就能搞定。这意味着普通的高端显卡甚至未来的手机都能跑起来。
  • 质量没降:虽然“偷懒”了,但画出来的猫依然很像,文字描述(比如“在森林里”)也能准确执行。
  • 速度更快:因为计算量少了,训练时间也缩短了。

4. 总结:这对我们意味着什么?

这篇论文就像给 AI 绘画领域装上了一个**“节能模式”**。

以前,你想定制一个专属的 AI 画师,得去租用昂贵的云端服务器。现在,有了 DiT-BlockSkip,未来你完全有可能在自己的手机上,花几分钟时间,上传几张自家宠物的照片,就训练出一个能画出你家宠物各种姿势的专属 AI,而且手机不会发烫、不会卡顿。

一句话总结:通过**“看远看近灵活切换”“只背重点、提前存答案”**,让 AI 模型在极小的内存下也能学会画任何你想画的东西,让个性化 AI 从“实验室”走向“你的口袋”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →