From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'NEO'**라는 새로운 인공지능 모델을 소개합니다. 이 모델을 이해하기 위해 기존의 방식과 비교하는 재미있는 비유를 들어보겠습니다.

🏗️ 기존 방식: "레고 조립 장난감" (모듈형 VLM)

지금까지 우리가 써온 시각 - 언어 모델 (VLM) 은 레고처럼 여러 개의 별도 부품을 조립해서 만들었습니다.

눈 (Vision Encoder): 이미지를 보는 전문가.
입 (Language Model): 말을 하는 전문가.
다리 (Projector): 두 전문가를 이어주는 연결 고리.

이 방식은 각 전문가가 제 일을 잘하도록 따로 훈련시켰기 때문에 성능이 좋았습니다. 하지만 단점이 있습니다.

연결이 어색함: 두 전문가가 서로 다른 언어로 대화하듯, 연결부에서 정보를 왜곡하거나 잃어버릴 수 있습니다.
훈련이 복잡함: 각 부품을 따로 훈련시킨 뒤 다시 조립하고 맞춰야 하므로 시간과 비용이 많이 듭니다.
유연성 부족: 이미지의 크기나 비율이 바뀌면 연결 부위가 딱딱해서 제대로 작동하지 않을 때가 있습니다.

🌱 새로운 방식: "NEO - 태어날 때부터 한 몸" (네이티브 VLM)

이 논문에서 제안한 NEO는 레고 조립이 아닙니다. 한 줄기의 나무가 자라나는 방식입니다.

하나의 뇌: NEO 는 처음부터 '이미지'와 '텍스트'를 구분하지 않고 하나의 통합된 두뇌로 설계되었습니다.
자연스러운 성장: 이미지의 픽셀 (점) 과 단어 (말) 가 처음부터 같은 공간에서 서로 섞여 배우기 때문에, "이 그림은 무슨 뜻일까?"라고 생각할 때 눈과 입이 따로 놀지 않고 동시에 이해합니다.

🔑 NEO 의 핵심 기술 3 가지 (비유 설명)

1. "모든 것을 한 번에 보는 눈" (네이티브 어텐션)

기존: 이미지를 조각조각 잘라서 순서대로 읽거나, 텍스트와 이미지를 따로 처리했습니다.
NEO: 마치 만화책을 읽을 때처럼, 그림의 모든 부분과 글자의 모든 부분을 동시에 연결해서 봅니다. 이미지 안의 '빨간색'과 '약'이라는 글자가 어떻게 연결되는지, 이미지의 '왼쪽'과 '오른쪽'이 어떤 관계인지 한 번에 파악합니다.

2. "위치 감각을 완벽하게 아는 나침반" (네이티브 RoPE)

기존: 이미지의 위치 (위, 아래, 왼쪽, 오른쪽) 와 텍스트의 순서를 처리하는 방식이 서로 달라서 혼란이 생겼습니다.
NEO: 3 차원 나침반을 새로 만들었습니다. 시간 (T), 높이 (H), 너비 (W) 를 각각 다른 주파수로 처리해서, 이미지가 어디에 있는지, 글자가 어떤 순서인지 아주 정교하게 기억합니다. 덕분에 긴 영상이나 복잡한 도표도 정확하게 이해할 수 있습니다.

3. "유연한 훈련 과정" (프리 - 버퍼 & 포스트 - LLM)

비유: NEO 는 처음에는 **유아 교육 (Pre-Buffer)**을 받습니다. 이때는 아직 언어 능력이 부족하므로, 이미지와 글자를 섞어서 배우는 데 집중합니다.
그다음 **성인 교육 (Post-LLM)**으로 넘어가면서, 이미 가지고 있던 언어 지식을 바탕으로 시각적 추론 능력을 키워갑니다.
결과: 처음에는 이미지와 글자를 맞추는 데 집중하다가, 나중에는 하나의 통합된 모델이 되어 스스로 모든 일을 처리합니다. 이 과정이 끝난 후에는 두 부분이 하나로 합쳐져서 더 빠르고 강력해집니다.

🚀 왜 이것이 중요한가요?

더 적은 비용, 더 큰 성과: 별도의 '눈' 부품을 따로 훈련시킬 필요가 없어졌습니다. 데이터만 충분히 주면, 처음부터 끝까지 한 번에 학습해서 최고 수준의 성능을 냅니다.
어떤 이미지든 가능: 이미지가 크든 작든, 가로세로 비율이 어떻게 되든 NEO 는 유연하게 받아들입니다. (기존 모델은 이미지를 잘라내거나 늘려야 했지만, NEO 는 원래 모양 그대로 이해합니다.)
미래의 기초: 이 논문은 "앞으로 인공지능은 따로따로 조립하는 게 아니라, 처음부터 통합된 형태로 만들어져야 한다"는 것을 증명했습니다. NEO 는 그 첫걸음이자 **재사용 가능한 부품 (프라이미티브)**을 제공하여, 앞으로 더 많은 연구자가 쉽게 이 분야를 발전시킬 수 있게 합니다.

💡 요약

기존 모델이 레고 조립이라면, NEO 는 한 몸으로 태어난 생명체입니다.
이미지 (눈) 와 언어 (입) 가 처음부터 하나로 연결되어 자라기 때문에, 서로의 의사를 오해할 여지가 없고, 훨씬 더 자연스럽고 똑똑하게 세상을 이해합니다. 이 기술은 앞으로 우리가 만드는 모든 멀티모달 AI(이미지, 텍스트, 영상을 동시에 다루는 AI) 의 새로운 표준이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

현재 주류를 이루는 모듈형 비전 - 언어 모델 (Modular VLMs) 은 사전 훈련된 비전 인코더 (Visual Encoder, VE) 와 대규모 언어 모델 (LLM) 을 경량 어댑터 (프로젝터 또는 크로스 어텐션) 로 연결하는 구조입니다. 이 방식은 뛰어난 성능을 보여주지만 다음과 같은 근본적인 한계를 가지고 있습니다:

강한 귀납적 편향 (Inductive Biases): 사전 훈련된 VE 의 고정된 특성이 이미지 해상도, 종횡비, 시각적 유연성을 제한합니다.
복잡한 인프라 및 정렬 비용: 모듈 간 정렬 (Alignment) 을 위해 다단계 후 훈련 (Post-training) 이 필요하며, 이는 계산 비용과 복잡성을 증가시킵니다.
모달리티 간 불일치: 비전과 언어 모듈이 분리되어 있어, 시각적 특징과 언어적 특징 간의 자연스러운 통합과 상호작용이 어렵습니다.

반면, 네이티브 비전 - 언어 모델 (Native VLMs) 은 별도의 비전 인코더 없이 단일 모델 내에서 시각과 언어를 통합하려는 시도이지만, 기존 연구들은 효율성 저하, 최적화 불안정, 또는 언어 지식의 손실 등의 문제를 겪어 왔습니다.

핵심 질문: 모듈형 모델과 경쟁할 수 있는 네이티브 VLM 을 구축하기 위해 어떤 근본적인 속성 (Primitives) 이 필요하며, 이를 어떻게 확장 가능한 규모로 구현할 수 있는가?

2. 방법론 (Methodology)

저자들은 NEO라는 새로운 네이티브 VLM 패밀리를 제안하며, 이는 "First Principles(근본 원리)"에서 출발하여 비전과 언어를 단일 프레임워크로 통합합니다.

가. 네이티브 VLM 원시 (Native VLM Primitive)

NEO 는 모듈형 아키텍처의 장점을 통합하면서도 모달리티 간 차이를 고려한 새로운 기본 구성 요소를 설계했습니다.

네이티브 로테이셔널 포지셔널 임베딩 (Native-RoPE):
- 기존 1D-RoPE 나 단순한 3D-RoPE 와 달리, 시간 (T), 높이 (H), 너비 (W) 차원을 완전히 분리하여 주파수 (Frequency) 와 채널 (Channel) 을 할당합니다.
- 텍스트는 T 인덱스만 사용 (H/W 는 0) 하고, 이미지는 고정된 T 인덱스에 고유한 H/W 인덱스를 부여합니다.
- 주파수 할당: T 는 장기 의존성 (100 만 단위) 을, H/W 는 국소적 공간 의존성 (수백 단위) 을 모델링하도록 서로 다른 베이스 주파수 ( $\Theta_T, \Theta_H, \Theta_W$ ) 를 적용하여 공간 - 시간 표현력을 극대화합니다.
멀티헤드 네이티브 어텐션 (Multi-Head Native Attention, MHNA):
- 텍스트는 인과적 (Causal) 어텐션만 수행하지만, 이미지 토큰은 양방향 (Bidirectional) 어텐션을 수행하여 시각적 컨텍스트를 완전히 이해합니다.
- H, W, T 차원에 대해 별도의 Q, K 헤드를 추가하여 (~10% 파라미터 증가) 모달리티 간 상호작용을 정밀하게 제어합니다.
유연한 위치 인코딩: 동적인 공간 구조에 일반화될 수 있는 위치 인코딩 방식을 채택합니다.

나. 아키텍처: Pre-Buffer 와 Post-LLM

단일 백본을 두 단계로 나누어 효율적인 학습을 유도합니다.

Pre-Buffer (초기 레이어):
- 이미지 패치와 텍스트를 통합된 표현으로 변환하는 초기 레이어입니다.
- 무작위 초기화되며, 사전 훈련된 LLM 의 언어 능력을 해치지 않으면서 시각적 개념을 학습하도록 설계됩니다.
- 이 단계는 재사용 가능한 프리트레이닝 자산 (Reusable Pretrained Asset) 으로 남습니다.
Post-LLM (후기 레이어):
- 사전 훈련된 LLM 의 가중치 (RMSNorm, FFN, T 축 QK 등) 를 계승 (Inherit) 합니다.
- H, W 차원의 QK 가중치는 초기화되지만, T 축의 언어적 추론 능력을 유지하면서 시각 - 언어 정렬을 수행합니다.
학습 후 통합: 전 훈련 (Pre-training) 단계에서는 분리되어 학습되지만, 미드 - 트레이닝 및 SFT 단계 이후에는 단일 모놀리식 (Monolithic) 백본으로 통합되어 자율적으로 인코딩, 정렬, 추론을 수행합니다.

다. 학습 절차 (Training Procedure)

Pre-Training (3.9 억 개 이미지 - 텍스트 쌍):
- LAION, COYO, BLIP3o 등 대규모 웹 스케일 데이터 사용.
- Pre-Buffer 와 새로운 QK 헤드를 학습하고, Post-LLM 의 언어 가중치는 고정 (Frozen) 하여 언어 지식 손실을 방지합니다.
Mid-Training:
- 고해상도 이미지, 복잡한 장면, 객체 스케일, OCR 등 시각적 인식 능력을 강화합니다.
- 전체 아키텍처를 엔드 - 투 - 엔드 (End-to-End) 로 최적화합니다.
Supervised Fine-Tuning (SFT):
- 400 만 개의 고품질 지시 데이터 (Instruction Data) 를 사용하여 복잡한 추론 및 대화 능력을 향상시킵니다.

3. 주요 기여 (Key Contributions)

NEO 아키텍처 제안: 별도의 비전 인코더 없이 비전과 언어를 원시 수준에서 통합하는 새로운 네이티브 VLM 패러다임을 제시했습니다.
Native-RoPE 및 MHNA 설계: 모달리티별 특성을 고려한 차원 분리 (T, H, W) 와 주파수 할당, 그리고 혼합 어텐션 메커니즘을 통해 정밀한 픽셀 - 단어 정렬을 가능하게 했습니다.
Pre-Buffer & Post-LLM 전략: 사전 훈련된 LLM 의 언어 능력을 유지하면서 시각적 학습을 효율적으로 확장할 수 있는 학습 전략을 고안했습니다. 이는 네이티브 모델의 학습 비용을 크게 줄이고 재사용 가능한 컴포넌트를 제공합니다.
모듈형 모델과의 경쟁력 입증: 제한된 데이터와 리소스 하에서도 최상위 모듈형 VLM 과 유사한 성능을 달성함을 증명했습니다.

4. 실험 결과 (Results)

NEO 는 2B 및 8B 파라미터 규모에서 다양한 벤치마크를 통해 평가되었습니다.

모듈형 모델 대비 성능:
- 2B 규모: Qwen2-VL, InternVL2.5 등 동급 모듈형 모델들과 경쟁 가능한 성능을 보였습니다. 특히 MMMU, MMBench, MMVet 등 복잡한 추론 태스크에서 두드러진 개선을 이루었습니다.
- 8B 규모: Qwen2.5-VL, InternVL3 등 최상위 모듈형 모델들과 거의 대등한 성능을 기록하며, 데이터 양이 적음에도 불구하고 네이티브 접근법의 유효성을 입증했습니다.
기존 네이티브 모델 대비 우위:
- Mono-InternVL, HoVLE, EVE, Chameleon 등 기존 네이티브 모델들보다 압도적인 성능 향상을 보였습니다. (예: 2B 기준 Avg. Accuracy 44.0% vs EVEv2 41.5%)
- 이는 단순히 더 큰 데이터나 새로운 백본 때문이 아니라, Pre-Buffer, Native-RoPE, 혼합 어텐션 등의 설계적 혁신에서 기인함을 ABLATION STUDY 를 통해 입증했습니다.
특징:
- Any Resolution: 고정된 해상도나 타일링 (Tile-wise) 없이 임의의 해상도를 처리 가능합니다.
- 효율성: 별도의 비전 인코더가 없어 추론 시 계산 오버헤드가 적고, 단일 모델로 통합되어 배포가 용이합니다.

5. 의의 및 결론 (Significance)

이 논문은 NEO를 통해 비전 - 언어 모델의 미래가 "모듈형 연결"이 아닌 "네이티브 통합"에 있을 수 있음을 보여줍니다.

확장 가능성 (Scalability): 네이티브 VLM 이 모듈형 모델의 성능 격차를 좁히고, 더 나아가 초월할 수 있는 가능성을 제시했습니다.
재사용 가능한 생태계: Pre-Buffer 와 같은 재사용 가능한 컴포넌트를 제공함으로써, 향후 연구자들이 네이티브 VLM 을 개발하는 데 드는 비용과 장벽을 낮췄습니다.
미래 지향성: 이 아키텍처는 이미지뿐만 아니라 비디오 생성, 장기 비디오 이해, embodied AI 등으로 확장 가능한 기반을 마련했습니다.

결론적으로, NEO 는 시각과 언어를 분리된 모듈이 아닌 단일하고 본질적으로 다중 모달 (Intrinsically Multimodal) 한 시스템으로 통합하는 새로운 패러다임을 제시하며, 차세대 멀티모달 시스템의 중요한 초석이 될 것으로 기대됩니다.