From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NEO 的新的人工智能模型。为了让你轻松理解，我们可以把现有的主流视觉语言模型（VLM）和 NEO 之间的区别，想象成"组装家具"和"原生生长"的区别。

1. 现状：拼凑的“组装家具” (模块化模型)

目前大多数流行的 AI 模型（比如 Qwen-VL, InternVL 等）采用的是模块化设计。

比喻：这就像你买了一套宜家家具。你有一个专门负责“看”的模块（视觉编码器，VE），一个专门负责“读”的模块（大语言模型，LLM），中间再用一个“连接器”（投影层）把它们拼在一起。
问题：
- 沟通不畅：这两个模块原本是在不同的地方“长大”的（一个学看图，一个学说话），突然把它们拼在一起，它们需要很长时间去磨合，甚至经常“鸡同鸭讲”。
- 笨重复杂：为了把它们连起来，需要很多额外的零件和复杂的训练步骤，就像组装家具需要很多螺丝和说明书，既麻烦又容易出错。
- 视野受限：那个“看”的模块是固定的，如果图片太大、太奇怪，它可能处理不了，就像老式相机只能拍固定尺寸的照片。

2. 创新：NEO 是“原生生长”的有机体

这篇论文提出的 NEO，则完全不同。它不是拼凑出来的，而是从第一性原理出发，从头开始设计的一个“原生”模型。

比喻：NEO 就像是一棵树。它的根（底层架构）同时包含了“看”和“说”的能力。它的叶子（像素）和它的果实（文字）是在同一个生命体里自然生长的，不需要额外的胶水把它们粘在一起。
核心特点：
- 天生懂“看图说话”：NEO 的每一个部分，从最底层的神经元开始，就同时被设计用来处理图像和文字。它不需要先学看图，再学说话，而是同时学习如何把“红色的药丸”这个图像和"red pill"这个单词完美对应起来。
- 灵活的“眼睛”：传统的模型看图片像用固定尺寸的相框（比如必须把图切成 1:1 的方块），而 NEO 像人的眼睛一样灵活，可以看清任何形状、任何大小的图片，无论是长条形的还是正方形的，都能完美适应。

3. NEO 的三大“超能力” (技术原理解析)

为了让这个“原生树”长得更好，作者给它设计了三个特殊的“基因”：

A. 独特的“时空坐标尺” (Native-RoPE)

通俗解释：想象你在描述一个场景。
- 对于文字，我们只需要知道谁在谁前面（时间顺序）。
- 对于图片，我们需要知道谁在左边、谁在右边、谁在上面、谁在下面（空间位置）。
- 以前的模型强行把图片压扁成一维的线，就像把一张地图卷成电话线，位置关系就乱了。
- NEO 的做法：它发明了一种新的“坐标尺”，能同时标记时间（文字顺序）、高度（图片上下）和宽度（图片左右）。就像给每个像素和每个字都贴上了精确的 GPS 坐标，让模型能精准地理解“红色的药丸在蓝色药丸的左边”。

B. “预缓冲”与“后语言”策略 (Pre-Buffer & Post-LLM)

通俗解释：这是一个聪明的学习策略。
- 第一阶段（Pre-Buffer）：想象 NEO 还是个小学生。它先花大量时间看 3.9 亿张“图 + 文字”的配对卡片。这时候，它利用一个专门的“缓冲区”来疯狂学习怎么把图像转换成语言能懂的样子。这时候，它背后的“大语言模型”大脑是冻结的（不改动），只负责引导它，防止它学歪了。
- 第二阶段（Post-LLM）：等它学会了看图，再把它和原本强大的“语言大脑”完全融合。这时候，它就不再需要那个“缓冲区”了，整个大脑变成一个整体，既能看图，又能推理，还能聊天。
- 好处：这种方法既利用了大语言模型原本聪明的“语言天赋”，又让它从零开始学会了“视觉技能”，而且学得非常快、非常稳。

C. 混合注意力机制 (Mixed Attention)

通俗解释：
- 看文字时，我们通常只能看前面的字，不能看后面的（因为还没写出来），这叫“单向关注”。
- 看图片时，我们可以同时看左上角和右下角，这叫“双向关注”。
- NEO 的做法：它很灵活。处理文字时，它像人类一样按顺序读；处理图片时，它像人类一样可以“环顾四周”。这种混合模式让它能同时理解复杂的图文关系。

4. 成果如何？

小身材，大能量：NEO 只用了一个相对较小的模型（比如 20 亿或 90 亿参数），却能在很多测试中打败那些由巨大模块拼凑起来的、更复杂的模型。
省钱省力：因为它不需要复杂的“组装”过程，训练起来更高效，而且不需要额外的“视觉编码器”硬件支持。
未来潜力：作者认为，NEO 证明了未来的 AI 不需要再是“拼凑”的，而是可以像生物一样，原生地、统一地理解世界。这为未来开发更强大、更通用的 AI 打开了一扇新大门。

总结

如果把现在的 AI 模型比作用乐高积木拼出来的机器人（虽然能跑，但零件多、连接处脆弱），那么 NEO 就像是用生物细胞培养出来的机器人（身体是一个整体，动作更协调，反应更自然）。

这篇论文的核心思想就是：不要再把“看”和“说”分开教了，让它们在一个统一的、原生的大脑里一起成长，这样 AI 会变得更聪明、更灵活、也更高效。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于NEO（Native Vision-Language Models，原生视觉语言模型）的技术论文总结。该论文由南洋理工大学（NTU）和商汤研究（SenseTime Research）等机构的研究人员共同完成。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

当前的视觉语言模型（VLMs）主要采用模块化设计（Modular VLMs），即由预训练的视觉编码器（Visual Encoder, VE）、投影层（Projector）和大语言模型（LLM）组成。虽然这种架构在性能上取得了成功，但存在以下核心痛点：

训练复杂与对齐困难：需要多阶段训练（预训练、对齐、微调），导致训练流程碎片化，且视觉与语言模块之间的对齐成本高。
归纳偏置（Inductive Bias）限制：预训练的视觉编码器带有强烈的归纳偏置，限制了分辨率的灵活性、细粒度细节的保留以及对多尺度特征的敏感度。
原生模型的挑战：早期的“原生”VLM（尝试从单一模型中学习视觉和语言）往往效率低下、优化不稳定，或者破坏了 LLM 原有的语言知识，难以在性能上超越模块化模型。

核心问题：如何构建一种原生 VLM 原语（Primitive），既能有效对齐像素和单词表示，又能无缝融合视觉和语言模块的优势，从而在单一架构内实现高效的编码、对齐和推理？

2. 方法论 (Methodology)

论文提出了NEO，一个基于第一性原理构建的原生 VLM 系列。其核心思想是设计一种统一的“原生 VLM 原语”，通过端到端训练，从 scratch（从零开始）学习视觉感知，同时保持语言推理能力。

2.1 核心架构设计：原生 VLM 原语 (Native VLM Primitive)

NEO 摒弃了独立的视觉编码器，采用单一的 Decoder-only 架构，包含以下关键创新：

轻量级嵌入层：
- 图像：使用轻量级的 Patch Embedding Layer (PEL)，包含两个卷积层和 GELU 激活函数，将图像转换为 Token 序列（每个 Token 对应 32x32 的图像块）。
- 文本：直接使用 LLM 的原始分词器（Tokenizer）。
原生旋转位置编码 (Native-RoPE)：
- 这是 NEO 的核心创新。传统的 RoPE 通常只处理 1D 序列或简单的 3D 扩展。NEO 设计了解耦的通道和频率分配：
  - 维度解耦：将序列索引分为时间 (T)、高度 (H) 和宽度 (W)。
  - 频率解耦：为 T、H、W 分配不同的基础频率（ $\Theta_T, \Theta_H, \Theta_W$ ）。T 维度保留 LLM 原有的高频范围（如 $10^6$ ），而 H/W 维度使用较低频率（如 $10^4$ ），以更好地捕捉空间局部依赖。
  - 索引分配：文本的 H/W 索引设为 0，图像的 T 索引固定，H/W 索引编码空间位置。多模态输入时，T 索引连续递增，确保跨模态位置编码的连续性。
多模态混合注意力 (Multi-Head Native Attention, MHNA)：
- 文本：遵循标准的因果注意力（Causal Attention），仅关注前面的 Token。
- 图像：采用双向注意力（Bidirectional Attention），允许所有视觉 Token 之间进行充分交互，模拟视觉编码器的特性。
- 这种混合机制在保持自回归生成的同时，增强了图像内部的空间上下文理解。
Pre-Buffer 与 Post-LLM 训练范式：
- Pre-Buffer（预缓冲层）：模型的前 $L_1$ 层被设计为 Pre-Buffer，完全随机初始化。这部分负责将像素/单词输入映射为统一表示，并引导视觉学习。
- Post-LLM（后语言模型层）：模型的剩余 $L_2$ 层继承预训练 LLM 的权重（如 RMSNorm, FFN, 时间维度的 Q/K 权重）。
- 优势：这种设计在预训练阶段利用 LLM 的语言能力引导视觉学习，减少了对齐偏差；随着训练深入，两部分融合为单一骨干网络，自主分配编码、对齐和推理能力。

2.2 训练流程 (Training Procedure)

NEO 采用三阶段端到端训练策略，使用 3.9 亿图像 - 文本样本：

预训练 (Pre-Training)：
- 数据：3.45 亿 Web 规模和合成图像 - 字幕对（LAION, COYO, BLIP3o 等）。
- 策略：冻结 LLM 部分（Post-LLM 的语言能力），仅优化 Pre-Buffer 和新增的 Q/K 投影层。目标是让模型从零开始学习视觉概念。
中期训练 (Mid-Training)：
- 数据：4000 万样本（涵盖图像描述、对话、检测、OCR）。
- 策略：解冻整个模型，进行全参数微调。重点增强高分辨率图像理解、复杂场景识别和空间定位能力。
监督微调 (Supervised Fine-Tuning, SFT)：
- 数据：400 万高质量双语指令数据（涵盖 VQA、数学、推理等）。
- 策略：优化模型遵循复杂指令和进行多轮对话的能力。

3. 主要贡献 (Key Contributions)

提出了原生 VLM 的设计原则：明确了原生 VLM 应具备的三个原则：(i) 在共享语义空间中有效对齐像素和单词；(ii) 无缝融合视觉和语言模块的优势；(iii) 内在地体现支持统一编码、对齐和推理的跨模态属性。
设计了 NEO 架构与 Native-RoPE：
- 首创了针对多模态的解耦旋转位置编码（Native-RoPE），解决了传统方法中空间与时间维度频率不匹配的问题。
- 引入了混合注意力机制（图像双向 + 文本因果），在单一架构内实现了视觉编码器的交互能力和 LLM 的生成能力。
提出了 Pre-Buffer + Post-LLM 的训练范式：
- 通过分阶段初始化（Pre-Buffer 随机初始化，Post-LLM 继承 LLM 权重），有效解决了原生模型训练不稳定和语言知识遗忘的问题。
- Pre-Buffer 可作为可复用的预训练资产，降低了后续原生 VLM 开发的门槛。
实现了性能突破：
- 在 2B 和 8B 参数规模下，NEO 在多个基准测试中缩小了与顶级模块化 VLM（如 Qwen-VL, InternVL）的差距，甚至在某些视觉感知任务上超越了部分原生模型。
- 证明了无需预训练视觉编码器，仅通过端到端训练和精心设计的原语，也能构建强大的多模态模型。

4. 实验结果 (Results)

基准测试表现：
- 通用基准：在 MMMU, MMBench, MMVet 等综合推理基准上，NEO-8B 达到了与 Qwen2.5-VL-7B 和 InternVL3 相当的水平（例如 MMMU 54.6 vs 55.0/62.7）。
- 视觉感知：在 AI2D, DocVQA, ChartQA 等图表和文档理解任务上，NEO 表现优异，特别是在支持任意分辨率（Any Resolution）输入时，性能接近模块化模型。
- 对比原生模型：NEO 显著优于之前的原生模型（如 EVE, Mono-InternVL, HoVLE），证明了其架构设计的优越性。
消融实验：
- Native-RoPE：相比 1D-RoPE 或其他 3D-RoPE 变体，Native-RoPE 带来了显著的性能提升（平均提升约 0.8% 以上），验证了频率解耦的重要性。
- 混合注意力：混合注意力模式比纯因果注意力更能捕捉跨模态依赖。
- Pre-Buffer：即使仅使用少量数据训练 Pre-Buffer，其性能也接近完整的视觉编码器（如 CLIP, InternViT），证明了该组件的高效性。

5. 意义与影响 (Significance)

范式转变：NEO 证明了“原生”VLM 不再是次优选择，通过合理的架构设计（Native-RoPE, MHNA）和训练策略（Pre-Buffer），原生模型可以媲美甚至超越复杂的模块化模型。
简化与民主化：NEO 消除了对独立视觉编码器和复杂对齐模块的依赖，简化了模型架构，降低了训练和部署的复杂性，使得构建高性能多模态模型更加“民主化”和可扩展。
可扩展性：该架构天然支持视频理解（通过时间维度扩展）和生成任务，为未来的全谱系多模态智能（包括视频生成、具身智能）提供了坚实的基础架构。
资源效率：通过 Pre-Buffer 的复用性和端到端训练，NEO 展示了在有限数据下也能获得强大视觉感知能力的潜力，为资源受限场景下的模型开发提供了新路径。

总结：NEO 论文通过重新思考 VLM 的基础构建块，提出了一套从第一性原理出发的原生多模态解决方案。它不仅解决了现有原生模型的效率和对齐问题，还展示了单一架构在统一视觉与语言理解方面的巨大潜力，标志着多模态大模型发展进入了一个新的阶段。