ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

本文提出了一种名为自适应 Token 字典(ATD)的新型 Transformer 架构,通过引入可学习的 Token 字典和跨注意力机制,在保持线性计算复杂度的同时实现了全局依赖建模,从而在图像超分辨率、去噪及 JPEG 伪影去除等任务中取得了最先进的性能。

Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ATD(自适应令牌字典)的新 AI 模型,专门用来修复受损的图片(比如把模糊的照片变清晰、把噪点去掉、或者把压缩过度的图片变回原样)。

为了让你轻松理解,我们可以把图像修复想象成**“修补一幅破损的古老挂毯”**。

1. 以前的难题:只盯着局部看

以前的 AI 模型(比如基于 Transformer 的模型)在修补挂毯时,就像是一个近视眼工匠

  • 局限性:为了算得快,它只能盯着眼前的一小块区域(比如 16x16 的方格)看。
  • 后果:如果挂毯上有一朵重复的花纹,但分散在挂毯的左上角和右下角,这个“近视眼”工匠因为只能看局部,就不知道这两朵花其实是同一种图案,无法利用远处的信息来修补近处的破损。
  • 两难选择:如果让它把视野扩大(看整幅挂毯),计算量会爆炸式增长,电脑根本跑不动;如果视野太小,修补效果就不够好。

2. ATD 的解决方案:一本“万能参考书” + “智能分类”

ATD 模型引入了两个核心创新,就像给工匠配备了两样神器:

神器一:自适应令牌字典(ATD)—— 一本“万能参考书”

  • 比喻:想象工匠手里有一本**“典型花纹百科全书”**(这就是“令牌字典”)。在训练过程中,AI 从成千上万张好图片里学习,把各种常见的纹理(如树叶、砖墙、皮肤、云朵)都总结成一个个“标准词条”存进这本书里。
  • 作用:当 AI 看到一张破损图片时,它不再只是死盯着局部,而是会翻开这本“参考书”,问:“这块模糊的地方,最像书里的哪个标准花纹?”
  • 跨域交流:通过**“令牌字典交叉注意力(TDCA)”**机制,AI 能把图片里的模糊像素和“参考书”里的标准词条进行匹配。这就像工匠拿着破损处去对照百科全书,瞬间就能知道这里原本应该长什么样,哪怕这个花纹在图片的其他地方(甚至很远的地方)。

神器二:自适应类别自注意力(AC-MSA)—— “按特征分组”而非“按位置分组”

  • 传统做法:以前的工匠是按**“地理位置”**分组的。比如“左上角 16x16 区域”是一组,大家互相商量。但这导致远处的相似花纹无法交流。
  • ATD 的做法:ATD 根据**“长得像不像”**来分组。
    • 它利用刚才那本“参考书”的匹配结果,把全图所有长得像的像素(比如所有像“砖墙”的像素,不管它们是在左上角还是右下角)强行拉到同一个小组里。
    • 效果:这就好比把全图里所有“砖块”都召集到一个会议室开会。即使它们相隔万里,也能互相交流信息,共同把破损的砖块修补得完美无缺。
    • 效率:这种分组方式虽然连接了全图,但因为分组很智能,计算量并没有爆炸,依然保持在线性速度(很快)。

神器三:类别感知的前馈网络(CFFN)—— “因材施教”的加工厂

  • 比喻:在修补的最后阶段,AI 不仅知道“这是什么花纹”,还知道“它属于哪一类”。
  • 作用:它把这种“类别信息”注入到最后的处理环节。就像工匠在打磨时,知道这是“丝绸”就用丝绸的打磨法,知道是“石头”就用石头的打磨法。这让最终修补出来的图片细节更丰富、更自然。

3. 实际效果:又快又好

  • 超分辨率(把小图变大):在把低清图片变高清的任务中,ATD 比目前最顶尖的方法(如 HAT, SwinIR 等)效果更好,尤其是在处理像城市建筑、漫画线条这种有重复结构的图片时,线条更直、纹理更清晰。
  • 去噪和去压缩瑕疵:作者还开发了一个叫 ATD-U 的版本(类似 U 型结构),专门用来处理噪点(把雪花屏变干净)和 JPEG 压缩块(把马赛克变平滑)。实验证明,它在这些任务上也全面超越了对手。

总结

简单来说,ATD 就是给 AI 装了一个**“全局视野”“智能分类系统”
它不再死板地按位置看问题,而是学会了
“举一反三”**:看到模糊的地方,就去参考全图里所有相似的地方,甚至参考它学过的“标准花纹库”。

结果就是:它既保留了 Transformer 强大的修复能力,又解决了计算量太大的问题,让 AI 能更快、更完美地修复各种受损图片。