OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

该论文提出 OneVision-Encoder,通过引入与视频编解码器对齐的稀疏性原则,将计算资源聚焦于高熵信号区域,从而在显著减少视觉令牌和预训练数据的同时,实现了比现有主流视觉骨干网络更优的多模态理解性能。

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 OneVision-Encoder 的新方法,旨在让 AI 更聪明、更高效地“看”懂视频和图片。

为了让你轻松理解,我们可以把现在的 AI 看视频方式,和这篇论文提出的新方法做一个生动的对比。

🎬 核心比喻:看一场电影

想象一下,你正在教一个机器人(AI)看懂一部电影。

❌ 旧方法:笨拙的“逐帧扫描”

现在的很多 AI 模型(比如以前的 Vision Transformer),就像是一个极其勤奋但有点死板的保安

  • 做法:它把电影里的每一帧画面(比如 64 帧)都切成无数个小方块(像素块)。
  • 问题:不管画面里是静止的蓝天、不动的墙壁,还是正在奔跑的主角,它都一视同仁地仔细检查每一个小方块。
  • 后果
    • 浪费算力:它把 90% 的精力花在了那些“没变化”的背景上(比如静止的树)。
    • 错过重点:因为精力被分散了,当主角突然做一个快速动作时,它可能因为处理不过来而漏掉关键细节。
    • 效率低:就像为了看一场精彩的球赛,你非要把球场上的每一粒灰尘都数一遍,累得半死,却忘了看球进了没有。

✅ 新方法:聪明的“视频剪辑师” (OneVision-Encoder)

这篇论文的作者说:“别这么干!我们要向视频压缩技术(Codec,比如你手机里看视频用的 H.264/H.265 格式)学习。”

视频压缩技术的核心智慧是:大部分画面是重复的,只有“变化”才是信息。

OneVision-Encoder 就像一位经验丰富的电影剪辑师

  1. I 帧(关键帧):就像电影的“全景图”。它保留完整的画面,告诉 AI“现在场景是什么样”。
  2. P 帧(预测帧):就像“变化记录”。它只记录哪里动了哪里变了
    • 如果背景里的树没动,剪辑师直接说:“这部分不用看,和上一帧一样。”
    • 如果有人在跑,剪辑师会高亮显示:“看这里!这里有变化!”

OneVision-Encoder 的绝招:
它不再均匀地看所有方块,而是只盯着那些“有变化”的方块看

  • 在 64 帧的视频里,它可能只处理 3% 到 25% 的方块(那些真正有运动、有信息的区域)。
  • 剩下的 75% 以上的“废话”(静止背景),它直接跳过,不浪费任何算力。

🧠 它是如何做到的?(三个关键步骤)

  1. 像压缩软件一样“切片” (Codec Patchification)

    • 它利用视频文件里自带的“运动数据”(就像电影里的场记本),直接告诉 AI 哪里在动。
    • 比喻:就像你读报纸,只读标题和加粗的新闻,跳过那些没用的广告和重复的废话。
  2. 统一时空的“三维罗盘” (3D RoPE)

    • 因为跳过了很多方块,剩下的方块位置变得不规则(有的多,有的少,时间也不连续)。
    • 为了解决这个问题,它发明了一种特殊的“定位系统”,让 AI 即使在看一堆散乱的碎片时,也能知道它们原本在时间轴和空间上的位置关系。
    • 比喻:就像玩拼图,虽然你只拿了关键的几块,但通过特殊的拼图盒(3D RoPE),你依然能拼出完整的画面,知道哪块是头,哪块是脚。
  3. 像老师一样“分类教学” (Cluster Discrimination)

    • 它不只是看,还学会了“归纳”。它把看到的物体(比如猫、狗)和动作(比如跑、跳)归类成百万个“概念组”。
    • 比喻:它不再死记硬背每一只猫长什么样,而是学会了“猫”这个概念的核心特征。这样它就能举一反三,认出各种各样的猫。

🏆 结果怎么样?

论文通过大量实验证明,这种“偷懒”的方法(只看不重要的部分)反而让 AI 变得更聪明、更强壮:

  • 更省资源:它用的计算量(Token)只有传统方法的几分之一,但效果却更好。
  • 更懂视频:在理解视频动作(比如跳水、做饭)的任务上,它比目前最强的模型(如 SigLIP2, DINOv3)准确率高出 4% 到 17%
  • 更通用:无论是看静态图片、文档,还是看长视频,它都能处理得很好。

💡 总结

OneVision-Encoder 的核心思想是:智能的本质是“压缩”和“聚焦”。

以前的 AI 试图记住所有的像素,像是一个试图背诵整本字典的人;
现在的 OneVision-Encoder 学会了像人类一样,只关注那些真正重要的“变化”和“信息”,就像一位聪明的读者,只读书里的精华部分。

这不仅让 AI 跑得更快、更省电,更重要的是,它让 AI 真正理解了视频里的动态世界,而不仅仅是静态的图片堆砌。这是通往“通用人工智能”(AGI)的重要一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →