OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OmniZip 的新发明。简单来说，它是一个**“万能且轻便的数据压缩大师”，专门用来把各种各样的数字文件（比如图片、文字、语音、基因序列等）变小，而且完全不会丢失任何信息**（解压后和原文件一模一样）。

为了让你更容易理解，我们可以用几个生动的比喻来拆解它的工作原理和厉害之处：

1. 现在的痛点：为什么我们需要 OmniZip？

想象一下，你有一个巨大的仓库（硬盘），里面堆满了各种各样的货物：

图片像是一幅幅复杂的油画。
文字像是一串串有逻辑的乐高积木。
语音像是连续流动的河流。
基因像是极其精密的密码本。

以前的压缩方法有两个大问题：

“专人专岗”太浪费： 以前，压缩图片要用“图片压缩工”，压缩文字要用“文字压缩工”。如果你要处理混合数据，就得雇佣一大堆不同的工人，既占地方又费钱。
“大胖子”太笨重： 最近出现了一些基于人工智能（大模型）的压缩工，它们很聪明，压缩效果极好。但它们太“胖”了（参数量巨大），就像让一头大象去搬一个小箱子，不仅跑不动（速度慢），还占用了整个仓库的空间（模型本身比压缩后的文件还大）。

2. OmniZip 的三大绝招

OmniZip 就像是一个**“全能特种兵”**，它身材苗条（模型小），但身怀绝技，能同时处理所有类型的货物。它靠三个核心技能：

技能一：万能翻译官（Modality-Unified Tokenization）

比喻： 想象所有货物（图片、文字、声音）原本说着不同的语言，甚至有的像画，有的像声音。OmniZip 有一个万能翻译官，它能瞬间把油画、乐高、河流和密码本，全部翻译成一种通用的“二进制积木语言”（Token）。
关键点： 这个翻译是可逆的。就像把乐高拆成小块，以后一定能原封不动地拼回去，不会少一块砖。

技能二：智能调度员（Modality-Routing Context Learning）

比喻： 以前的大模型像一个“大锅炖”，不管来的是红烧肉还是清蒸鱼，都用同样的火候和调料。OmniZip 则像是一个拥有多个专业厨房的餐厅。
- 当“图片”进来时，调度员会立刻把它送到“图像处理专家”手里。
- 当“基因”进来时，就送到“生物专家”手里。
- 当“语音”进来时，就送到“声音专家”手里。
关键点： 这种**“按需分配”**（专家混合机制，MoE）让模型在处理不同数据时，能调用最合适的“大脑”，既聪明又省力。

技能三：灵活变形金刚（Modality-Routing Feedforward）

比喻： 除了处理数据，OmniZip 还能在内部进行复杂的“变形”。它不像普通模型那样死板，而是能根据数据的特性，灵活调整自己的思考方式。
关键点： 这让它在面对极其复杂的数据（比如基因序列或医疗影像）时，依然能保持极高的压缩效率。

3. 它的厉害之处（成果）

压缩效果惊人：
- 在压缩图片时，它比老牌的 gzip 省了约 42% 的空间。
- 在压缩文字时，省了约 62%。
- 在压缩语音和基因时，也大幅超越了现有的最佳方案。
- 简单说：以前存 100 本书需要 10 个箱子，现在只需要 4 个箱子，而且书里的字一个不少。
速度快到飞起：
- 很多 AI 压缩器慢得像蜗牛，压缩一张图要半小时。OmniZip 因为身材苗条，在普通的笔记本电脑甚至手机上，都能达到**“实时”**速度（每秒处理 1MB 左右）。
- 这意味着你以后在手机上发大文件，或者在边缘设备上存数据，都能瞬间完成，不需要等待。
体积小，成本低：
- 它不需要像那些“大象”一样的大模型（几十亿参数），OmniZip 只需要几百万参数。这意味着它不需要昂贵的超级计算机，普通的设备就能跑。

4. 总结

OmniZip 就像是给数字世界带来了一个**“瑞士军刀”式的压缩工具**。

它不挑食：什么数据都能压。
它不占地方：模型本身很小。
它干活快：在普通设备上也能秒速完成。

这项技术让未来的数据存储和传输变得更高效、更便宜，无论是医疗影像、基因数据，还是我们日常的手机照片和语音，都能被更聪明地“打包”起来。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
现有的基于学习的无损压缩方法主要面临两个关键挑战：

模型复杂度过高，难以落地： 许多基于大语言模型（LLM）的压缩方法（如 LLaMA-3-8B）参数量巨大（数十亿级），导致推理速度极慢。例如，压缩一张 1080p 图片可能需要 30 分钟以上，压缩 1GB 文本可能需要数天，无法满足实际部署需求。
缺乏多模态统一性： 大多数现有方法仅针对单一模态（如仅针对图像或仅针对文本）设计。在多模态系统中，需要部署多个独立的压缩器，增加了软件复杂度和硬件成本。
- 模态异构性挑战： 不同数据类型的统计特性差异巨大（文本是离散的序列，图像是二维空间结构，语音是连续频谱，数据库是结构化字段，基因序列具有特定模体）。
- 现有尝试的不足： 部分尝试将多模态数据统一转换为 ASCII 文本进行处理，但这忽略了模态间的本质差异，导致非文本模态的压缩性能次优。

目标：
设计一个**统一（Unified）且轻量级（Lightweight）**的无损压缩器，能够高效处理图像、文本、语音、触觉、数据库和基因序列等多种模态数据，并在资源受限的边缘设备上实现近实时推理。

2. 方法论 (Methodology)

OmniZip 基于轻量级的 RWKV-7 架构作为骨干网络，通过以下三个核心组件和一种训练策略来解决多模态压缩问题：

2.1 模态统一分词器 (Modality-Unified Tokenization)

为了将异构数据映射到统一的 Token 空间，同时保证无损可逆性：

文本类数据（自然语言、基因序列、数据库）：使用 SentencePiece BPE 分词器（词表大小 16K），并针对特定领域添加符号（如基因碱基 A/T/G/C，数据库 SQL 关键字）。
图像类数据（自然图像、医学图像、触觉信号）：将图像划分为 $16 \times 16 \times 3$ 的块，按光栅扫描顺序展平，将每个 RGB 子像素视为独立 Token（词表大小 256）。触觉力数据被映射为伪 RGB 图像。
语音数据：直接读取原始字节流，将每个字节视为 Token（词表大小 256）。
模态前缀与掩码：在每个 Token 序列前添加模态特定前缀（如 <image>, <text>），并在 Softmax 和算术编码前应用模态掩码（Modality Masking），仅保留当前模态相关的 Token 概率，减少估计误差。

2.2 模态路由上下文学习 (Modality-Routing Context Learning)

在 RWKV 的 Time Mixing 模块中引入**混合专家（MoE）**机制，以增强对多模态上下文依赖的建模能力：

路由策略：设计一个可学习的 Router，根据输入 Token 计算每个专家（Expert）的得分，选择 Top-k 个专家进行处理。
专家选择：研究发现，Value (V) 层承载具体的记忆内容，最适合引入多样性。因此，仅在 V 层应用 MoE，而 Key (K) 和 Receptance (R) 层在所有专家间共享。
配置：设置 4 个专家，Top-k=2。这仅增加了极少量的参数和计算开销，但显著提升了多模态适应性。

2.3 模态路由前馈网络 (Modality-Routing Feedforward)

传统的通用 MLP 难以捕捉不同模态的非线性特征差异。

改进：将前馈网络（MLP）替换为基于 MoE 的模态路由前馈模块。
设计：专家为小型 MLP（隐藏层维度为原大 MLP 的 2 倍，即原设计的 1/2），同样采用 4 专家、Top-k=2 的配置。这使得激活参数数量与原设计相当，但提供了更强的多模态表示灵活性。

2.4 重参数化训练策略 (Reparameterization Training Strategy)

为了在不增加推理成本的前提下提升模型容量：

训练时：在 RWKV 的 R、K、V 层中引入高秩辅助分支（High-rank branches），增加模型表达能力。
推理时：通过结构重参数化将辅助分支合并回主路径，保持推理时的单路径结构，确保推理速度和显存占用不变。

3. 主要贡献 (Key Contributions)

提出了 OmniZip 框架：首个统一且轻量级的多模态无损压缩器，支持图像、文本、语音、触觉、数据库和基因序列等多种数据类型的无损压缩。
创新架构设计：
- 设计了模态统一分词器，实现了异构数据的可逆统一表示。
- 提出了模态路由机制（上下文学习和前馈网络），利用 MoE 动态适应不同模态的统计特性。
- 采用重参数化训练，平衡了训练容量与推理效率。
广泛的实验验证：在 7 种模态、16 个数据集上进行了评估，证明了其在压缩效率和推理速度上的优越性。
边缘设备部署能力：实现了在 MacBook CPU 和 iPhone NPU 等资源受限设备上的近实时推理（0.1~1 MB/s）。

4. 实验结果 (Results)

4.1 压缩性能

OmniZip 在多个模态上表现优异，甚至超越了针对单一模态优化的 SOTA 方法：

图像类数据：在 CLIC-M 数据集上，比 gzip 压缩效率提升 42%；在 TouchandGo（触觉）上提升 57%；在 Coronal（医学）上提升 62%。
文本类数据：在 enwik9 上比 gzip 提升 42%；在 WikiSQL（数据库）上提升 53%。
语音数据：在 LibriSpeech 上比 gzip 提升 42%，比专用无损音频编码器 FLAC 提升 15%~23%。
对比 LLM：相比基于 LLaMA-3-8B 的压缩方法，OmniZip 在参数量少几个数量级的情况下，达到了相当甚至更好的压缩率。

4.2 推理速度与效率

速度：在 NVIDIA A100 GPU 上，OmniZip-S 峰值速度可达 4 MB/s。
边缘设备：在 MacBook CPU 和 iPhone NPU 上，OmniZip-S 实现了 ~1 MB/s 的近实时推理速度，大模型版本也能达到 ~200 KB/s。
资源占用：模型参数量小（OmniZip-S 仅 4.8M 参数），MACs 低，适合边缘部署。

4.3 消融实验

移除模态路由机制会导致多模态压缩性能显著下降，证明了路由机制的有效性。
在 V 层应用 MoE 比在 K/R 层应用效果更好。
4 个专家、Top-k=2 的配置在复杂度和性能之间取得了最佳平衡。

5. 意义与价值 (Significance)

打破模态壁垒：OmniZip 证明了通过统一的轻量级架构，可以有效解决多模态数据的异构性问题，无需为每种数据类型单独训练和部署压缩器，极大降低了系统复杂度和维护成本。
推动边缘计算落地：通过轻量化设计和高效的推理优化，OmniZip 使得在智能手机、笔记本电脑等边缘设备上进行高质量的多模态无损压缩成为可能，这对于物联网（IoT）、移动医疗和实时数据传输具有重要意义。
重新定义压缩范式：展示了“轻量级骨干 + 动态路由（MoE）”在压缩任务中的巨大潜力，为未来设计通用、高效的多模态 AI 系统提供了新的思路。
开源贡献：代码已开源，为社区提供了统一的多模态压缩基准和实现方案。

总结：OmniZip 成功地在压缩性能、模型复杂度和多模态通用性之间取得了卓越的平衡，是迈向通用、高效、边缘友好的多模态无损压缩的重要一步。