InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 INFOTOK 的新方法，它的核心任务是解决一个非常实际的问题：如何更聪明、更高效地“打包”视频数据。

想象一下，你正在给视频文件打包准备邮寄。现在的传统方法就像是一个死板的打包工：不管箱子里装的是“一张白纸”还是“一座复杂的乐高城堡”，他都强制用同样大小的箱子，塞进同样数量的填充物。

如果装的是白纸（简单的视频，比如静止的风景），箱子就太大了，浪费空间（冗余）。
如果装的是乐高城堡（复杂的视频，比如激烈的打斗），箱子又太小，东西塞不下，只能把一些零件扔掉（信息丢失）。

INFOTOK 就是那个“聪明的打包工”。它懂得根据内容的“信息密度”来动态调整打包的大小。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心痛点：为什么现在的视频“打包”不够好？

现在的视频 AI（比如生成视频的模型）需要把视频转换成一个个“数字积木”（Token）。

现状：目前的系统像是一个固定刻度的尺子。不管视频里是猫在睡觉（变化少），还是两只猫在打架（变化多），它都切出同样数量的积木。
后果：
- 对于简单的画面，切多了，全是废话，浪费算力。
- 对于复杂的画面，切少了，细节全丢，画面模糊。

2. INFOTOK 的解决方案：像“智能快递”一样工作

INFOTOK 的灵感来自香农的信息论（信息论之父）。它的核心思想是：信息量大的地方多给点空间，信息量小的地方少给点空间。

它的工作流程可以比喻为三个步骤：

第一步：智能安检员（Router / 路由器）

在打包之前，INFOTOK 先派一个“安检员”快速扫一眼视频。

它在看什么？ 它在计算这段视频的“混乱程度”或“信息量”。
怎么做？ 它利用一种叫 ELBO（证据下界）的数学工具，快速估算这段视频到底需要多少“积木”才能讲清楚。
- 比喻：如果视频里是一只狗在睡觉，安检员说：“这很简单，给 30% 的箱子空间就够了。”如果视频里是猫在打架，安检员说：“这太复杂了，得给 60% 的空间！”

第二步：灵活打包工（Adaptive Compressor / 自适应压缩器）

拿到安检员的指令后，打包工开始工作。

传统做法：把前 30% 的积木留下，后面的扔掉（这会导致画面断层，比如只保留了视频的前几秒，后面全黑了）。
INFOTOK 的做法：它像是一个淘金者。它会检查视频里的每一块积木，把那些“废话”（信息量低的冗余部分，比如静止的背景）挑出来扔掉，只保留“金子”（信息量高的关键部分，比如移动的人物）。
- 比喻：它不是按顺序切掉视频，而是把视频里的“水分”挤干，只留下精华。

第三步：完美复原（Decoder / 解码器）

收到精简后的“金块”后，解码器负责把它们变回视频。因为保留了最关键的信息，所以即使积木数量变少了，还原出来的画面依然清晰，甚至细节都没丢。

3. 它有多厉害？（实验结果）

论文通过大量实验证明，INFOTOK 比现有的“死板打包工”强得多：

省空间：在保持画质不变的情况下，它能节省 20% 到 50% 的“积木”数量。这意味着传输视频更快，存储更便宜。
画质更好：在同样的空间限制下，它还原的视频比以前的方法更清晰，动作更流畅。
速度快：以前的自适应方法（比如 ElasticTok）需要像“试错”一样，反复尝试打包大小，直到找到合适的，这很慢。INFOTOK 的安检员一眼就能看出需要多少，速度快了 11 倍。

4. 总结：为什么这很重要？

想象一下未来的世界，我们要让 AI 理解长达几小时的电影，或者实时生成超高清的虚拟世界。如果每个视频都按“固定大小”处理，电脑会累死，内存会爆掉。

INFOTOK 就像给视频数据装上了“智能压缩引擎”：

它不再“一刀切”。
它懂得因材施教：简单的画面轻装上阵，复杂的画面重拳出击。
它让 AI 处理长视频变得更轻松、更经济、更智能。

一句话总结：INFOTOK 让视频压缩不再是大锅饭，而是根据内容的“营养密度”进行精准配餐，既省粮食（算力/存储），又保证吃饱（画质）。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《INFOTOK: ADAPTIVE DISCRETE VIDEO TOKENIZER VIA INFORMATION-THEORETIC COMPRESSION》（基于信息论压缩的自适应离散视频 Tokenizer）的详细技术总结。

1. 研究背景与问题 (Problem)

核心痛点：
现有的视频离散 Tokenizer（将视频压缩为离散 Token 序列的模块）大多采用固定压缩率（Fixed-rate）或数据无关的自适应（Data-agnostic adaptive）策略。

固定压缩率： 无论视频内容简单（如静止画面）还是复杂（如快速运动），都使用相同的 Token 数量。这导致简单视频存在大量冗余，而复杂视频则信息不足。
现有自适应方法（如 ElasticTok）： 虽然允许 Token 长度变化，但通常采用启发式训练（如均匀采样长度）和推理时的试错法（Binary Search）来确定长度。
- 理论缺陷： 论文证明，数据无关的均匀路由（Uniform Router）会导致 Tokenizer 在训练时产生偏差，无法达到理论最优的压缩长度。
- 效率低下： 推理时需要多次前向传播（搜索最佳长度）才能满足重建损失阈值，计算开销巨大。

目标：
设计一个理论上最优且高效的自适应视频 Tokenizer，能够根据视频内容的信息密度（Information Density）动态分配 Token 数量，在保持重建质量的同时最大化压缩率。

2. 方法论 (Methodology)

论文提出了 INFOTOK，一个基于香农信息论（Shannon's Information Theory）的自适应 Tokenization 框架。

2.1 理论基石：香农源编码定理

论文首先严格证明了：对于非均匀分布的数据，固定长度或数据无关的自适应 Tokenizer 在期望 Token 长度上远大于理论最优值（即香农熵 $H_C(D)$ ）。最优策略是根据内容的出现频率（信息量）动态分配长度：高频/简单内容用短码，低频/复杂内容用长码。

2.2 核心组件

INFOTOK 框架包含三个关键部分，建立在现有的固定长度 Tokenizer（如 Cosmos Tokenizer）之上：

基于 ELBO 的路由器 (ELBO-based Router)：
- 原理： 利用证据下界（ELBO, Evidence Lower Bound）作为视频信息复杂度的代理指标。ELBO 与负对数似然（Negative Log-Likelihood）紧密相关，理论上 $N_x \propto -\log p(x)$ 。
- 机制： 路由器计算输入视频的 ELBO 值，归一化后决定该视频应分配的 Token 数量 $N_x$ 。
- 优势： 避免了推理时的暴力搜索，只需一次解码器前向传播即可估算信息量，从而确定长度。
自适应压缩器 (Adaptive Compressor)：
- 挑战： 如何将固定长度的潜在表示（Latent Embeddings）压缩为路由器指定的可变长度 $N_x$ ，同时保留关键信息。
- 策略： 基于似然的 Token 选择。计算每个 Token 对应的 ELBO 值（即信息量），保留信息量最高的 $N_x$ 个 Token，掩码（Mask）掉信息量最低的 Token。
- 实现： 使用 Transformer 架构将保留的 Token 重新映射，并生成一个二值掩码（Binary Mask）作为离散 Token 序列的一部分（开销仅约 5%）。
自适应解压缩器 (Adaptive Decompressor)：
- 接收压缩后的 Token 序列和掩码，利用 Transformer 将信息还原回原始长度的潜在表示，供解码器重建视频。

2.3 训练与推理流程

训练： 联合优化编码器、路由器、压缩器和解码器。目标是最小化重建损失，同时路由器根据 ELBO 动态调整 $N_x$ 。
INFOTOK-Flex： 为了适应不同的压缩率需求，论文提出了一种“集成”策略，在训练时随机采样不同的压缩因子 $\beta$ ，使单个模型能处理多种压缩率。
推理： 给定目标压缩率（BPP），计算所需的平均 Token 数，路由器根据当前视频的 ELBO 动态分配具体帧的 Token 数，无需搜索。

3. 主要贡献 (Key Contributions)

理论证明： 基于香农信息论，严格证明了现有固定速率或数据无关自适应 Tokenizer 的次优性（Sub-optimality）和偏差，指出基于信息密度的自适应是理论最优解。
INFOTOK 框架： 提出了首个基于信息论原理的自适应视频 Tokenizer。利用 ELBO 作为路由信号，结合 Transformer 自适应压缩器，实现了无需搜索的动态 Token 分配。
SOTA 性能： 在视频重建任务中，实现了比现有方法更优的压缩效率和重建质量。

4. 实验结果 (Results)

实验在 TokenBench 和 DAVIS 数据集上进行，对比了 Open-MAGVIT2, OmniTokenizer, Cosmos-DV 以及自适应方法 ElasticTok。

压缩效率与质量：
- 相比固定长度 Tokenizer： 在保持相同重建质量（PSNR, SSIM, FVD）的情况下，节省了约 20% 的 Token。
- 相比 ElasticTok（现有 SOTA 自适应）：
  - 在相同 Token 数量下，INFOTOK 的重建质量显著更高（FVD 降低 40-60%，LPIPS 降低 25-40%）。
  - 在相同压缩率（BPP）下，INFOTOK 能实现 2.3 倍 的压缩率提升（即达到相同质量所需的 Token 更少）。
推理效率：
- 显著加速： ElasticTok 需要二进制搜索（Binary Search），导致每次推理需要额外的 11 次网络前向传播（NFEs）。而 INFOTOK 仅需 1 次 额外的解码器前向传播来计算 ELBO。
- 延迟对比： 在同等设置下，INFOTOK 的推理延迟远低于 ElasticTok（例如：1.23s vs 13.45s）。
消融实验：
- 证明了基于 ELBO 的路由器性能接近“最优搜索策略”（Optimal Search），验证了理论的有效性。
- 证明了基于 ELBO 的 Token 选择策略优于简单的随机掩码（如 ElasticTok 的 R2L 策略）。

5. 意义与影响 (Significance)

理论突破： 将香农信息论明确引入视频 Tokenization 领域，为自适应压缩提供了坚实的理论基础，纠正了以往启发式方法的偏差。
实际应用价值：
- 长视频处理： 极大地降低了长视频序列的 Token 数量，缓解了 Transformer 架构处理长序列时的显存和计算瓶颈。
- 多模态模型： 为未来的统一多模态基础模型（World Models）提供了更高效的视频表示方法，使得模型能更经济地“理解”和“生成”视频。
- 通用性： 虽然本文聚焦视频，但其基于信息复杂度的自适应原理可推广至音频、3D 点云等其他模态。

总结：
INFOTOK 通过“按信息量分配 Token"的核心理念，成功解决了视频 Tokenization 中的冗余与效率矛盾。它不仅是一个性能更强的压缩工具，更是一个在理论指导下的范式转变，为未来高效的多模态大模型发展铺平了道路。