Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 OneVision-Encoder 的新方法，旨在让 AI 更聪明、更高效地“看”懂视频和图片。

为了让你轻松理解，我们可以把现在的 AI 看视频方式，和这篇论文提出的新方法做一个生动的对比。

🎬 核心比喻：看一场电影

想象一下，你正在教一个机器人（AI）看懂一部电影。

❌ 旧方法：笨拙的“逐帧扫描”

现在的很多 AI 模型（比如以前的 Vision Transformer），就像是一个极其勤奋但有点死板的保安。

做法：它把电影里的每一帧画面（比如 64 帧）都切成无数个小方块（像素块）。
问题：不管画面里是静止的蓝天、不动的墙壁，还是正在奔跑的主角，它都一视同仁地仔细检查每一个小方块。
后果：
- 浪费算力：它把 90% 的精力花在了那些“没变化”的背景上（比如静止的树）。
- 错过重点：因为精力被分散了，当主角突然做一个快速动作时，它可能因为处理不过来而漏掉关键细节。
- 效率低：就像为了看一场精彩的球赛，你非要把球场上的每一粒灰尘都数一遍，累得半死，却忘了看球进了没有。

✅ 新方法：聪明的“视频剪辑师” (OneVision-Encoder)

这篇论文的作者说：“别这么干！我们要向视频压缩技术（Codec，比如你手机里看视频用的 H.264/H.265 格式）学习。”

视频压缩技术的核心智慧是：大部分画面是重复的，只有“变化”才是信息。

OneVision-Encoder 就像一位经验丰富的电影剪辑师：

I 帧（关键帧）：就像电影的“全景图”。它保留完整的画面，告诉 AI“现在场景是什么样”。
P 帧（预测帧）：就像“变化记录”。它只记录哪里动了、哪里变了。
- 如果背景里的树没动，剪辑师直接说：“这部分不用看，和上一帧一样。”
- 如果有人在跑，剪辑师会高亮显示：“看这里！这里有变化！”

OneVision-Encoder 的绝招：
它不再均匀地看所有方块，而是只盯着那些“有变化”的方块看。

在 64 帧的视频里，它可能只处理 3% 到 25% 的方块（那些真正有运动、有信息的区域）。
剩下的 75% 以上的“废话”（静止背景），它直接跳过，不浪费任何算力。

🧠 它是如何做到的？（三个关键步骤）

像压缩软件一样“切片” (Codec Patchification)
- 它利用视频文件里自带的“运动数据”（就像电影里的场记本），直接告诉 AI 哪里在动。
- 比喻：就像你读报纸，只读标题和加粗的新闻，跳过那些没用的广告和重复的废话。
统一时空的“三维罗盘” (3D RoPE)
- 因为跳过了很多方块，剩下的方块位置变得不规则（有的多，有的少，时间也不连续）。
- 为了解决这个问题，它发明了一种特殊的“定位系统”，让 AI 即使在看一堆散乱的碎片时，也能知道它们原本在时间轴和空间上的位置关系。
- 比喻：就像玩拼图，虽然你只拿了关键的几块，但通过特殊的拼图盒（3D RoPE），你依然能拼出完整的画面，知道哪块是头，哪块是脚。
像老师一样“分类教学” (Cluster Discrimination)
- 它不只是看，还学会了“归纳”。它把看到的物体（比如猫、狗）和动作（比如跑、跳）归类成百万个“概念组”。
- 比喻：它不再死记硬背每一只猫长什么样，而是学会了“猫”这个概念的核心特征。这样它就能举一反三，认出各种各样的猫。

🏆 结果怎么样？

论文通过大量实验证明，这种“偷懒”的方法（只看不重要的部分）反而让 AI 变得更聪明、更强壮：

更省资源：它用的计算量（Token）只有传统方法的几分之一，但效果却更好。
更懂视频：在理解视频动作（比如跳水、做饭）的任务上，它比目前最强的模型（如 SigLIP2, DINOv3）准确率高出 4% 到 17%。
更通用：无论是看静态图片、文档，还是看长视频，它都能处理得很好。

💡 总结

OneVision-Encoder 的核心思想是：智能的本质是“压缩”和“聚焦”。

以前的 AI 试图记住所有的像素，像是一个试图背诵整本字典的人；
现在的 OneVision-Encoder 学会了像人类一样，只关注那些真正重要的“变化”和“信息”，就像一位聪明的读者，只读书里的精华部分。

这不仅让 AI 跑得更快、更省电，更重要的是，它让 AI 真正理解了视频里的动态世界，而不仅仅是静态的图片堆砌。这是通往“通用人工智能”（AGI）的重要一步。

Each language version is independently generated for its own context, not a direct translation.

OneVision-Encoder 技术总结

1. 研究背景与核心问题 (Problem)

核心假设：通用人工智能（AGI）本质上是一个压缩问题。有效的压缩要求深度学习架构与数据的根本结构产生“共鸣”。

现有痛点：

计算冗余：现代视觉架构（如标准的 ViT）通常均匀处理密集的像素网格，将大量计算资源浪费在静态背景或可预测的区域上。
信息稀疏性：视觉信号中，具有判别力的信息（即“惊喜”或运动变化）是稀疏的，而大部分内容是高度冗余和可预测的。
架构错位：当前的视频模型未能对齐视频数据的内在信息论结构（即视频编解码器的原理），导致在处理视频理解任务时，效率与精度之间存在不必要的权衡。

核心问题：如何设计一种视觉编码器，能够像视频编解码器（Codec）一样，识别并仅处理那些包含高熵（高信息量）的稀疏区域，从而在大幅减少计算量的同时提升理解能力？

2. 方法论 (Methodology)

论文提出了 OneVision-Encoder (OV-Encoder)，一种受 HEVC（高效视频编码）启发的视觉 Transformer，旨在将时空表示学习与视频信号的内在预测结构对齐。

2.1 核心机制：Codec Patchification (编解码器分块)

OV-Encoder 摒弃了均匀计算，转而采用Codec Patchification策略，仅关注视频中 3.1% - 25% 的高信息熵区域。具体包含三种输入形式：

Dense Video-Codec Patchification (密集视频编解码分块)：
- 利用 HEVC 编解码器暴露的运动矢量 (Motion Vectors) 和 残差信号 (Residual Signals) 来量化每个图像块（Patch）的信息量。
- I 帧 (Intra-frame)：保留完整的空间上下文（所有 Patch）。
- P 帧 (Predicted frame)：仅选择运动矢量幅度大或残差能量高的稀疏 Patch 进行编码。
- 在固定 Token 预算下（如 64 帧视频仅用 2048 个 Token），实现了 87.5% 的压缩率，同时保留全时间覆盖。
Chunk-wise Patchification (分块分块)：将视频划分为时间块，在每个块内进行稀疏采样，统一时空推理。
Single-Image Spatial Patchification (单图空间分块)：将静态图像视为单帧视频，进行空间结构的 Patch 化。

2.2 架构创新

共享 3D RoPE (3D Rotary Position Embedding)：为了适应不规则的 Token 布局（稀疏的 P 帧 Patch + 密集的 I 帧 Patch），模型采用统一的 3D 旋转位置编码，能够同时编码空间 $(x, y)$ 和时间 $(t)$ 的相对位置，支持在稀疏和不规则布局上的连贯注意力机制。
双向注意力机制：采用基于双向注意力的 Vision Encoder，支持图像和视频的联合理解。

2.3 训练目标：大规模聚类判别 (Cluster Discrimination)

自监督学习：摒弃了传统的像素级重建（如 MAE）或简单的实例级对比学习（如 CLIP）。
概念库构建：构建了一个包含超过 100 万个语义簇 (Concepts) 的大型概念库。
联合优化：
- 对象级语义：从图像中提取物体级中心。
- 运动级语义：从视频中提取动作/运动级中心。
- 通过对比学习，将视觉嵌入与这些全局语义中心对齐，强制模型学习具有结构化的、模态无关的视觉表示，同时捕捉物体永久性和运动动态。

3. 主要贡献 (Key Contributions)

OneVision-Encoder 模型：提出了首个将时空表示学习与视频信号内在预测结构（编解码器原理）对齐的 HEVC 风格视觉 Transformer。
Codec Patchification 输入范式：引入了一种受编解码器启发的输入公式，利用运动矢量和残差信号，从密集视频中选择性编码高信息量的 Patch（仅 3.1%-25%），并统一了视频、分块采样和单图输入。
大规模聚类判别目标：采用自监督聚类判别目标，结合百万级概念库，联合建模对象级和运动级语义，无需外部语言监督即可实现结构化视觉表示学习。
效率与精度的正相关性验证：通过实验证明，通过解决“密集网格”与“稀疏语义”的二元对立，效率（计算量/Token 数）与精度不再是权衡关系，而是正相关。

4. 实验结果 (Results)

OV-Encoder 在多个基准测试中展现了 SOTA（State-of-the-Art）性能，且使用了更少的预训练数据和 Token。

4.1 多模态大模型 (LMM) 探测评估

对比对象：Qwen3-ViT, SigLIP2。
设置：集成到基于 Qwen3-4B 的 LMM 中，在 16 个图像、视频和文档理解基准上进行测试。
结果：
- 在视频理解任务上，平均比 Qwen3-ViT 提升 4.1%。
- 尽管 OV-Encoder 的预训练视觉 - 文本 Token 数（约 100B）远少于 Qwen3-ViT（2.1T+），但在所有 16 个基准上均全面超越 Qwen3-ViT 和 SigLIP2。
- 证明了其视觉表示的迁移能力更强，而非依赖数据规模。

4.2 注意力探测 (Attentive Probing) 评估

设置：冻结视觉编码器，仅训练轻量级分类头，评估底层表征质量。
结果：
- 在 Diving-48 数据集上，相比 SigLIP2 和 DINOv3，Top-1 准确率分别提升了 17.1% 和 8.1%（在相同的 Patch 预算下）。
- 在 7 个视频理解基准上，全面超越 SigLIP2、DINOv3、MetaCLIP2 和 AIMv2。
- 效率分析：在固定 Token 预算下，OV-Encoder (Codec) 相比密集处理的 SigLIP2，在 Diving-48 和 Perception Test 上表现更优，同时减少了 75% - 96.9% 的 Patch 处理量。

4.3 消融实验与定性分析

消融实验：通过替换运动 Patch 或打乱位置，证明了性能提升确实依赖于语义正确的运动内容和时空对齐结构，而非单纯的稀疏性。
可视化：显示模型能准确聚焦于动态前景（如移动的人物），而忽略静态背景，有效捕捉了时间上的关键证据。

5. 意义与影响 (Significance)

重新定义视觉通用智能的基础：论文提出“编解码器对齐的 Patch 级稀疏性”不仅是优化技巧，而是下一代视觉通用智能的基础原则。
打破效率与精度的权衡：证明了通过顺应数据的信息论结构（即利用视频的可预测性进行压缩），可以在大幅降低计算成本（Token 数）的同时，显著提升模型的理解能力。
可扩展性：该方法不依赖特定的编解码器实现，而是利用其结构原理，为构建 scalable（可扩展）的通用多模态智能引擎提供了新的路径。
开源贡献：作者开源了模型、数据和训练协议，推动了透明、可复现且低成本的视觉 - 语言研究。

总结：OneVision-Encoder 通过将视觉建模重构为“预测性压缩”问题，成功利用视频编解码器的结构原理（I 帧/P 帧、运动矢量、残差），实现了在极低 Token 预算下的高效、高精度多模态理解，为通用人工智能的视觉感知部分提供了新的范式。

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence