Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

이 논문은 다양한 비전 인코더의 시각 토큰을 효과적으로 통합하는 경량화된 설계 원칙을 제안하고, 이를 적용한 'LEO'라는 새로운 아키텍처가 다양한 벤치마크와 자율주행 도메인에서 기존 혼합 비전 인코더 (MoVE) 기반 모델보다 우수한 성능을 보임을 입증합니다.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 "레오 (Leo)": 여러 개의 눈을 가진 똑똑한 AI 의 이야기

이 논문은 **'멀티모달 대형 언어 모델 (MLLM)'**이라는 AI 의 눈을 더 똑똑하게 만드는 방법에 대한 연구입니다. 기존 AI 는 한 가지 시야만 가지고 있어 복잡한 그림이나 긴 글자를 읽는 데 어려움을 겪곤 했는데요. 이 연구는 **"여러 개의 서로 다른 전문가 (시각 인코더) 를 한 팀으로 묶어서 함께 일하게 하자"**는 아이디어를 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "한 명의 천재보다 여러 명의 전문가가 낫다"

기존 AI 는 마치 한 명의 사진작가처럼 작동했습니다. 이 사진작가는 풍경은 잘 찍지만, 작은 글씨를 읽는 데는 서툴렀고, 복잡한 차분한 표를 분석하는 데는 약했습니다.

이 연구는 "여러 명의 전문가를 한 팀으로 모아서 (Mixture of Vision Encoders)" 문제를 해결하려 했습니다.

  • 전문가 A: 전체적인 분위기 파악을 잘함 (예: CLIP, InternViT)
  • 전문가 B: 작은 부분이나 경계선을 잘 파악함 (예: SAM, DINOv2)

하지만 문제는 이 전문가들을 어떻게 함께 일하게 하느냐였습니다. 단순히 목소리를 합치거나, 서로 말을 섞게 하는 방식마다 결과가 달랐죠.

2. 해결책: "레오 (Leo)"라는 새로운 팀 구성법

저자들은 수많은 실험을 통해 **"가장 효율적인 팀워크 방식"**을 찾아냈고, 이를 **레오 (Leo)**라는 AI 에 적용했습니다. 레오의 비법은 크게 세 가지입니다.

① "퍼즐 조각으로 나누어 보기" (Dynamic Tiling)

고해상도 이미지를 한 번에 다 보면 AI 가 기억할 수 있는 양 (컨텍스트) 을 넘쳐버립니다.

  • 비유: 거대한 벽화를 한 번에 보려고 하면 다 보이지 않죠? 대신 벽화를 작은 퍼즐 조각 (Tile) 으로 잘라서 하나씩 자세히 보고, 마지막에 전체 그림 (Global Context) 을 한 번 더 보게 합니다.
  • 효과: 작은 글씨나 복잡한 디테일도 놓치지 않고, 전체적인 맥락도 이해하게 됩니다.

② "줄 서서 번갈아 가며 말하기" (Tile-level Sequence Interleaving)

여러 전문가의 의견을 어떻게 합칠까요?

  • 잘못된 방법: 전문가 A 가 다 말하고 전문가 B 가 다 말하는 것 (순서대로 붙이기).
  • 잘못된 방법: 전문가 A 와 B 의 말을 섞어서 한 문장으로 만드는 것 (채널 연결).
  • 레오의 방법: A 의 첫 번째 말, B 의 첫 번째 말, A 의 두 번째 말, B 의 두 번째 말... 이렇게 줄 서서 번갈아 가며 (Interleaving) 정보를 섞습니다.
  • 비유: 두 사람이 대화할 때, 한 사람이 다 말하고 다른 사람이 듣는 게 아니라, 대화를 주고받으며 서로의 생각을 자연스럽게 섞는 것처럼요. 이렇게 하면 AI 가 두 전문가의 정보를 가장 균형 있게 이해합니다.

③ "각자 준비하고 나서 합치기" (Post-adaptation Fusion)

전문가들이 AI 의 언어 (LLM) 를 이해하도록 가르치는 시점을 언제로 할까요?

  • 기존 방식: 전문가들이 서로 먼저 합쳐서, 그 다음에 AI 언어를 배우게 함.
  • 레오의 방식: 각 전문가가 AI 언어를 따로따로 완벽하게 배운 뒤, 서로 합칩니다.
  • 비유: 두 명의 외국인이 서로 먼저 대화하는 게 아니라, 각자 한국어를 유창하게 배운 뒤 함께 팀을 이루는 것과 같습니다. 이렇게 하면 각자의 고유한 특징 (전문성) 을 잃지 않으면서도 더 잘 소통할 수 있습니다.

3. 결과: "작지만 강력한 레오"

레오는 이 세 가지 비법만 적용했을 뿐, 다른 복잡한 장치를 추가하지 않았습니다.

  • 성적: 복잡한 문서 읽기 (OCR), 차트 분석, 자율주행 상황 판단 등 다양한 시험에서 기존에 여러 전문가를 썼던 다른 AI 들보다 더 좋은 점수를 받았습니다.
  • 효율성: 더 적은 데이터와 더 적은 계산 능력으로도 더 똑똑한 결과를 냈습니다. 마치 고급 레스토랑의 셰프 5 명을 고용하는 대신, 실력 있는 셰프 2 명이 최고의 레시피로 요리하는 것처럼 효율적입니다.

4. 자율주행에서의 활약

레오는 단순히 그림만 잘 보는 게 아니라, 자율주행이라는 특수한 분야에서도 빛을 발했습니다.

  • 상황: "앞에 보행자가 있는데, 차를 멈춰야 할까?"
  • 레오의 답변: "네, 멈춰야 합니다. 보행자가 횡단보도를 건너고 있으니까요."
  • 의의: 별도의 복잡한 수정 없이도, 레오는 도로 상황의 미세한 차이 (자전거, 보행자, 신호등) 를 정확히 파악하고 안전한 결정을 내렸습니다.

🌟 요약

이 논문은 **"AI 를 더 똑똑하게 만드는 것은 무조건 더 큰 모델을 만드는 게 아니라, 기존 전문가들을 어떻게 잘 팀워크하게 하느냐에 달려있다"**는 것을 증명했습니다.

**레오 (Leo)**는 여러 개의 눈을 가진 AI 가 서로의 시야를 퍼즐처럼 나누고, 번갈아 말하며, 각자 준비한 뒤 합치는 간단한 but 강력한 방식을 통해, 복잡한 세상을 더 잘 이해하고 인간을 도와주는 똑똑한 파트너가 되었습니다.