Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

该论文提出了一种将视觉信号编码为冻结生成模型低秩适配参数的函数式隐式表示框架,通过将其哈希为紧凑向量,实现了极低码率下的高感知视频压缩,并构建了连接视觉压缩与生成的统一范式。

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常有趣且颠覆性的视频压缩新想法。为了让你轻松理解,我们可以把传统的压缩技术比作“打包行李”,而这篇论文提出的方法则是“传授魔法”。

1. 传统方法:笨重的“打包行李”

想象一下,你想把一部精彩的电影(视频)发给朋友。

  • 传统做法:你不得不把电影里的每一帧画面(像素)都切碎了,像把衣服折叠得整整齐齐一样,塞进一个箱子里(压缩成数据包)。
  • 问题:箱子再小,里面装的依然是“死”的数据。你的朋友收到后,必须把箱子打开,把衣服一件件拿出来拼好,才能看到电影。如果箱子太小(压缩率太高),衣服就会皱巴巴的,画面就模糊了。而且,这个箱子本身不包含任何“怎么穿衣服”的智慧,它只是数据的搬运工。

2. 新方法:传授“魔法咒语”

这篇论文的作者们换了一种思路。他们发现,现在的 AI 大模型(比如能生成视频的 AI)就像一位无所不知的“魔法大师”,脑子里已经装满了关于世界、光影、动作的所有知识(预训练知识)。

  • 核心思想:我们不需要把电影画面本身打包发给朋友。相反,我们只需要给这位“魔法大师”写一张特殊的“魔法咒语”(也就是论文里的“隐式表示”或“适应向量”)。
  • 怎么做
    1. 我们让 AI 看着这部电影,然后微调一下它的“大脑”(通过一种叫 LoRA 的技术,只修改极少量的参数)。
    2. 这就好比给 AI 贴了一个小小的“便签”,告诉它:“嘿,当你念咒语时,请按照这个特定的剧本去生成画面。”
    3. 最后,我们把这个小小的“便签”(也就是那串参数)压缩成一个极短的向量(甚至可以说是一个“魔法种子”)。

3. 这个“魔法种子”有多神奇?

A. 极致的压缩(把大象装进冰箱)

  • 比喻:传统的压缩是把大象切碎了塞进冰箱。而我们的方法,是只给冰箱留一张纸条,上面写着“大象的生成公式”。
  • 效果:论文里提到,原本长达 81 帧的视频,现在只需要一个极小的向量(甚至可以说是一个“种子”)就能存下来。这个种子只有几 KB 甚至更小,比传统压缩小了无数倍。

B. 解码就是“现场表演”

  • 比喻:你的朋友收到这个“种子”后,不需要解压一堆乱码。他只需要把这个种子交给他也有的那位“魔法大师”(同样的 AI 模型)。
  • 过程:AI 看着种子,结合自己脑子里原本就有的丰富知识,现场重新“演”出这部电影。
  • 优势:因为 AI 是在“理解”和“创造”画面,而不是在“拼凑”碎片,所以即使在极低的数据量下,画面依然非常清晰、自然,甚至能补全一些传统压缩会丢失的细节。

C. 随时可以“修改剧本”(推理时控制)

这是最酷的一点!

  • 比喻:传统的录像带,你只能看,不能改。但我们的“魔法种子”是活的。
  • 场景
    • 如果你想在解码时让画面更清晰?没问题,AI 可以“多思考一会儿”(推理时扩展),自动优化画面。
    • 如果你想把视频里的一朵红花改成蓝花?只要改一下提示词,AI 就能在生成过程中直接修改,而不需要重新压缩整个视频。
    • 这就像你给 AI 一个“记忆”,它不仅能还原电影,还能基于这个记忆进行二次创作(比如把视频里的人换成另一个人,或者改变背景)。

4. 总结:从“存数据”到“存知识”

这篇论文的核心贡献在于:

  1. 不再存储画面本身,而是存储“如何生成画面的指令”。
  2. 利用 AI 大模型已有的海量知识作为基础,我们只需要传输“差异”(即那个小小的适应向量)。
  3. 实现了超高清、超低码率的视频压缩,并且让压缩后的文件具备了可编辑、可优化的灵活性。

一句话概括
以前的压缩是把视频“压扁”了存起来;现在的压缩是把视频的“灵魂”提取出来,变成一颗种子,让 AI 在接收端用这颗种子“种”出视频。这不仅省空间,还让视频变得更聪明、更好用。