From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

本文针对原生视觉语言模型(VLM)面临的理论局限与普及难题,提出了构建原生 VLM 的三大核心原则,并据此推出了名为 NEO 的新型原生模型家族,该模型通过从像素到文本的端到端训练,在多种真实场景中实现了与顶尖模块化模型相媲美的性能,同时构建了可扩展且低成本的生态系统。

Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NEO 的新的人工智能模型。为了让你轻松理解,我们可以把现有的主流视觉语言模型(VLM)和 NEO 之间的区别,想象成"组装家具"和"原生生长"的区别。

1. 现状:拼凑的“组装家具” (模块化模型)

目前大多数流行的 AI 模型(比如 Qwen-VL, InternVL 等)采用的是模块化设计

  • 比喻:这就像你买了一套宜家家具。你有一个专门负责“看”的模块(视觉编码器,VE),一个专门负责“读”的模块(大语言模型,LLM),中间再用一个“连接器”(投影层)把它们拼在一起。
  • 问题
    • 沟通不畅:这两个模块原本是在不同的地方“长大”的(一个学看图,一个学说话),突然把它们拼在一起,它们需要很长时间去磨合,甚至经常“鸡同鸭讲”。
    • 笨重复杂:为了把它们连起来,需要很多额外的零件和复杂的训练步骤,就像组装家具需要很多螺丝和说明书,既麻烦又容易出错。
    • 视野受限:那个“看”的模块是固定的,如果图片太大、太奇怪,它可能处理不了,就像老式相机只能拍固定尺寸的照片。

2. 创新:NEO 是“原生生长”的有机体

这篇论文提出的 NEO,则完全不同。它不是拼凑出来的,而是从第一性原理出发,从头开始设计的一个“原生”模型

  • 比喻:NEO 就像是一棵。它的根(底层架构)同时包含了“看”和“说”的能力。它的叶子(像素)和它的果实(文字)是在同一个生命体里自然生长的,不需要额外的胶水把它们粘在一起。
  • 核心特点
    • 天生懂“看图说话”:NEO 的每一个部分,从最底层的神经元开始,就同时被设计用来处理图像和文字。它不需要先学看图,再学说话,而是同时学习如何把“红色的药丸”这个图像和"red pill"这个单词完美对应起来。
    • 灵活的“眼睛”:传统的模型看图片像用固定尺寸的相框(比如必须把图切成 1:1 的方块),而 NEO 像人的眼睛一样灵活,可以看清任何形状、任何大小的图片,无论是长条形的还是正方形的,都能完美适应。

3. NEO 的三大“超能力” (技术原理解析)

为了让这个“原生树”长得更好,作者给它设计了三个特殊的“基因”:

A. 独特的“时空坐标尺” (Native-RoPE)

  • 通俗解释:想象你在描述一个场景。
    • 对于文字,我们只需要知道谁在谁前面(时间顺序)。
    • 对于图片,我们需要知道谁在左边、谁在右边、谁在上面、谁在下面(空间位置)。
    • 以前的模型强行把图片压扁成一维的线,就像把一张地图卷成电话线,位置关系就乱了。
    • NEO 的做法:它发明了一种新的“坐标尺”,能同时标记时间(文字顺序)、高度(图片上下)和宽度(图片左右)。就像给每个像素和每个字都贴上了精确的 GPS 坐标,让模型能精准地理解“红色的药丸在蓝色药丸的左边”。

B. “预缓冲”与“后语言”策略 (Pre-Buffer & Post-LLM)

  • 通俗解释:这是一个聪明的学习策略
    • 第一阶段(Pre-Buffer):想象 NEO 还是个小学生。它先花大量时间看 3.9 亿张“图 + 文字”的配对卡片。这时候,它利用一个专门的“缓冲区”来疯狂学习怎么把图像转换成语言能懂的样子。这时候,它背后的“大语言模型”大脑是冻结的(不改动),只负责引导它,防止它学歪了。
    • 第二阶段(Post-LLM):等它学会了看图,再把它和原本强大的“语言大脑”完全融合。这时候,它就不再需要那个“缓冲区”了,整个大脑变成一个整体,既能看图,又能推理,还能聊天。
    • 好处:这种方法既利用了大语言模型原本聪明的“语言天赋”,又让它从零开始学会了“视觉技能”,而且学得非常快、非常稳。

C. 混合注意力机制 (Mixed Attention)

  • 通俗解释
    • 文字时,我们通常只能看前面的字,不能看后面的(因为还没写出来),这叫“单向关注”。
    • 图片时,我们可以同时看左上角和右下角,这叫“双向关注”。
    • NEO 的做法:它很灵活。处理文字时,它像人类一样按顺序读;处理图片时,它像人类一样可以“环顾四周”。这种混合模式让它能同时理解复杂的图文关系。

4. 成果如何?

  • 小身材,大能量:NEO 只用了一个相对较小的模型(比如 20 亿或 90 亿参数),却能在很多测试中打败那些由巨大模块拼凑起来的、更复杂的模型。
  • 省钱省力:因为它不需要复杂的“组装”过程,训练起来更高效,而且不需要额外的“视觉编码器”硬件支持。
  • 未来潜力:作者认为,NEO 证明了未来的 AI 不需要再是“拼凑”的,而是可以像生物一样,原生地、统一地理解世界。这为未来开发更强大、更通用的 AI 打开了一扇新大门。

总结

如果把现在的 AI 模型比作用乐高积木拼出来的机器人(虽然能跑,但零件多、连接处脆弱),那么 NEO 就像是用生物细胞培养出来的机器人(身体是一个整体,动作更协调,反应更自然)。

这篇论文的核心思想就是:不要再把“看”和“说”分开教了,让它们在一个统一的、原生的大脑里一起成长,这样 AI 会变得更聪明、更灵活、也更高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →