From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

이 논문은 네이티브 비전 - 언어 모델 (VLM) 의 한계를 해소하고 연구의 민주화를 촉진하기 위해 새로운 원시적 요소들을 기반으로 구축된 'NEO'라는 확장 가능한 네이티브 VLM 계열을 제안하며, 이를 통해 모듈형 모델과 견줄 만한 성능을 달성하고 재사용 가능한 컴포넌트 생태계를 조성합니다.

Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'NEO'**라는 새로운 인공지능 모델을 소개합니다. 이 모델을 이해하기 위해 기존의 방식과 비교하는 재미있는 비유를 들어보겠습니다.

🏗️ 기존 방식: "레고 조립 장난감" (모듈형 VLM)

지금까지 우리가 써온 시각 - 언어 모델 (VLM) 은 레고처럼 여러 개의 별도 부품을 조립해서 만들었습니다.

  • 눈 (Vision Encoder): 이미지를 보는 전문가.
  • 입 (Language Model): 말을 하는 전문가.
  • 다리 (Projector): 두 전문가를 이어주는 연결 고리.

이 방식은 각 전문가가 제 일을 잘하도록 따로 훈련시켰기 때문에 성능이 좋았습니다. 하지만 단점이 있습니다.

  1. 연결이 어색함: 두 전문가가 서로 다른 언어로 대화하듯, 연결부에서 정보를 왜곡하거나 잃어버릴 수 있습니다.
  2. 훈련이 복잡함: 각 부품을 따로 훈련시킨 뒤 다시 조립하고 맞춰야 하므로 시간과 비용이 많이 듭니다.
  3. 유연성 부족: 이미지의 크기나 비율이 바뀌면 연결 부위가 딱딱해서 제대로 작동하지 않을 때가 있습니다.

🌱 새로운 방식: "NEO - 태어날 때부터 한 몸" (네이티브 VLM)

이 논문에서 제안한 NEO는 레고 조립이 아닙니다. 한 줄기의 나무가 자라나는 방식입니다.

  • 하나의 뇌: NEO 는 처음부터 '이미지'와 '텍스트'를 구분하지 않고 하나의 통합된 두뇌로 설계되었습니다.
  • 자연스러운 성장: 이미지의 픽셀 (점) 과 단어 (말) 가 처음부터 같은 공간에서 서로 섞여 배우기 때문에, "이 그림은 무슨 뜻일까?"라고 생각할 때 눈과 입이 따로 놀지 않고 동시에 이해합니다.

🔑 NEO 의 핵심 기술 3 가지 (비유 설명)

1. "모든 것을 한 번에 보는 눈" (네이티브 어텐션)

  • 기존: 이미지를 조각조각 잘라서 순서대로 읽거나, 텍스트와 이미지를 따로 처리했습니다.
  • NEO: 마치 만화책을 읽을 때처럼, 그림의 모든 부분과 글자의 모든 부분을 동시에 연결해서 봅니다. 이미지 안의 '빨간색'과 '약'이라는 글자가 어떻게 연결되는지, 이미지의 '왼쪽'과 '오른쪽'이 어떤 관계인지 한 번에 파악합니다.

2. "위치 감각을 완벽하게 아는 나침반" (네이티브 RoPE)

  • 기존: 이미지의 위치 (위, 아래, 왼쪽, 오른쪽) 와 텍스트의 순서를 처리하는 방식이 서로 달라서 혼란이 생겼습니다.
  • NEO: 3 차원 나침반을 새로 만들었습니다. 시간 (T), 높이 (H), 너비 (W) 를 각각 다른 주파수로 처리해서, 이미지가 어디에 있는지, 글자가 어떤 순서인지 아주 정교하게 기억합니다. 덕분에 긴 영상이나 복잡한 도표도 정확하게 이해할 수 있습니다.

3. "유연한 훈련 과정" (프리 - 버퍼 & 포스트 - LLM)

  • 비유: NEO 는 처음에는 **유아 교육 (Pre-Buffer)**을 받습니다. 이때는 아직 언어 능력이 부족하므로, 이미지와 글자를 섞어서 배우는 데 집중합니다.
  • 그다음 **성인 교육 (Post-LLM)**으로 넘어가면서, 이미 가지고 있던 언어 지식을 바탕으로 시각적 추론 능력을 키워갑니다.
  • 결과: 처음에는 이미지와 글자를 맞추는 데 집중하다가, 나중에는 하나의 통합된 모델이 되어 스스로 모든 일을 처리합니다. 이 과정이 끝난 후에는 두 부분이 하나로 합쳐져서 더 빠르고 강력해집니다.

🚀 왜 이것이 중요한가요?

  1. 더 적은 비용, 더 큰 성과: 별도의 '눈' 부품을 따로 훈련시킬 필요가 없어졌습니다. 데이터만 충분히 주면, 처음부터 끝까지 한 번에 학습해서 최고 수준의 성능을 냅니다.
  2. 어떤 이미지든 가능: 이미지가 크든 작든, 가로세로 비율이 어떻게 되든 NEO 는 유연하게 받아들입니다. (기존 모델은 이미지를 잘라내거나 늘려야 했지만, NEO 는 원래 모양 그대로 이해합니다.)
  3. 미래의 기초: 이 논문은 "앞으로 인공지능은 따로따로 조립하는 게 아니라, 처음부터 통합된 형태로 만들어져야 한다"는 것을 증명했습니다. NEO 는 그 첫걸음이자 **재사용 가능한 부품 (프라이미티브)**을 제공하여, 앞으로 더 많은 연구자가 쉽게 이 분야를 발전시킬 수 있게 합니다.

💡 요약

기존 모델이 레고 조립이라면, NEO 는 한 몸으로 태어난 생명체입니다.
이미지 (눈) 와 언어 (입) 가 처음부터 하나로 연결되어 자라기 때문에, 서로의 의사를 오해할 여지가 없고, 훨씬 더 자연스럽고 똑똑하게 세상을 이해합니다. 이 기술은 앞으로 우리가 만드는 모든 멀티모달 AI(이미지, 텍스트, 영상을 동시에 다루는 AI) 의 새로운 표준이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →