Dynamic Chunking Diffusion Transformer

本文提出了动态分块扩散 Transformer(DC-DiT),通过引入端到端学习的编码器 - 路由器 - 解码器架构,根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列,从而在显著降低计算成本的同时提升了生成质量,并支持从预训练 DiT 模型的低成本迁移。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DC-DiT(动态分块扩散 Transformer)的新 AI 技术,它能让 AI 画图变得更聪明、更高效。

为了让你轻松理解,我们可以把 AI 画图的过程想象成一位画家在画布上创作一幅画

1. 传统方法:像“切蛋糕”一样死板

以前的 AI 画图模型(比如 DiT),就像是一个死板的切蛋糕师傅

  • 做法:不管画布上画的是蓝天(一片空白)还是复杂的龙鳞(细节丰富),它都机械地把画布切成大小完全一样的小方块(Token)。
  • 问题
    • 浪费精力:在画蓝天这种简单的地方,它花的时间和在画龙鳞这种复杂地方一样多,这太浪费算力了。
    • 不分阶段:不管是在画草图阶段(只有大轮廓)还是画细节阶段(需要精细笔触),它都用同样的“切法”。

2. 新方法 DC-DiT:像“聪明的导游”

DC-DiT 给这个死板的切蛋糕师傅配了一位聪明的导游(动态分块机制)。这位导游能根据画的内容,灵活地调整“切法”。

核心功能一:哪里重要切哪里(空间自适应)

  • 比喻:想象你在看一张风景照。
    • 背景(蓝天、草地):导游说:“这里很单调,全是蓝色,不需要太多细节。”于是,他把整片蓝天合并成一个大块,只用很少的“令牌”(Token)来代表。
    • 主体(花朵、人脸):导游说:“这里细节超多,花瓣纹理、眼睛高光都很重要。”于是,他把花朵切得非常细碎,用很多“令牌”来精细描述。
  • 结果:AI 把宝贵的计算资源都集中在了“画龙鳞”和“画眼睛”上,而不再浪费在“画蓝天”上。而且,它不需要人类教它哪里是重点,它是自己在画画过程中自己学会分辨的。

核心功能二:什么时候用力看什么时候(时间自适应)

  • 比喻:AI 画画是从一团模糊的噪点(像电视雪花)慢慢变清晰的。
    • 刚开始(噪点多):这时候画面一团糟,看不清具体是什么。导游说:“现在太乱了,看不清细节,我们粗略看一下大轮廓就行,少用点令牌。”
    • 快结束时(画面清晰):这时候细节出来了。导游说:“现在要画龙鳞了,仔细看,多用点令牌把细节刻画出来。”
  • 结果:AI 在混乱时“偷懒”(省算力),在需要精细时“加把劲”。

3. 三大亮点

  1. 更省钱、更聪明
    实验证明,用同样的算力(或者更少的参数),DC-DiT 画出来的图质量(FID 分数)比传统方法更好。就像是用同样的时间,聪明的导游能带你看更多精华景点。

  2. “旧瓶装新酒”(Upcycling)
    这是最酷的一点。你不需要从头训练一个新的 AI。你可以直接拿一个已经训练好的旧 AI(就像一辆旧车),给它装上这个“智能导游系统”(DC-DiT 模块)。

    • 效果:只需要很少的额外训练(就像给旧车换个新引擎,跑了几圈就适应了),它就能比从头训练的新车跑得更快、更好。这大大降低了使用成本。
  3. 可以“叠 buff"
    这个技术还能和其他优化技术结合使用。就像给车既换了智能导航,又换了轻量化轮胎,效果叠加,让 AI 跑得更快。

总结

DC-DiT 就像给 AI 画家装上了一双“慧眼”和一个“智能大脑”
它不再死板地平均分配精力,而是哪里复杂画哪里,什么时候该细画就细画。这不仅让 AI 画得更好,还让它画得更快、更省电,甚至能直接升级现有的旧模型,是 AI 生成图像领域的一项非常实用的进步。