Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Each language version is independently generated for its own context, not a direct translation.

📸 1. 기존 AI 의 문제점: "너무 넓게 보거나, 너무 가까이만 보는 두 가지 극단"

기존의 멀티모달 AI(그림과 글을 함께 이해하는 AI) 는 주로 두 가지 방식 중 하나를 사용했습니다.

방식 A (CLIP 기반): "망원경"
- 특징: 그림 전체를 한눈에 훑어보며 "이건 강아지야", "이건 바다야" 같은 큰 개념을 잘 파악합니다.
- 단점: 하지만 강아지의 귀가 어떤 색인지, 바다 물결의 미세한 무늬는 어떤지 같은 세부적인 디테일은 놓치기 쉽습니다. 마치 멀리서 산을 보며 "산이 있구나"는 알지만, 나무 한 그루의 잎사귀는 못 보는 것과 같습니다.
방식 B (DINOv3 기반): "고배율 현미경"
- 특징: 그림의 매우 미세한 부분 (텍스처, 질감, 작은 물체) 을 아주 잘 봅니다.
- 단점: 하지만 전체적인 맥락이나 큰 그림을 이해하는 데는 약합니다. "이건 강아지야"라고 말하기보다 "이건 갈색 털 덩어리야"라고만 말하고, 전체적인 상황 (예: 강아지가 공을 쫓고 있다) 을 놓칠 수 있습니다.

기존의 해결책: 두 기술을 합치려고 했지만, 계산량이 너무 많고 비효율적이었습니다.

🎛️ 2. 그랜룰론 (Granulon) 의 혁신: "상황에 따라 초점을 자동으로 조절하는 스마트 카메라"

그랜룰론은 **DINOv3(현미경)**을 기반으로 하되, 질문 (텍스트) 에 따라 초점을 자동으로 조절하는 새로운 기술을 도입했습니다.

핵심 기능 1: "지시하는 마법사 (컨트롤러)"

비유: 사진작가가 촬영할 때, "전체 풍경을 찍어줘"라고 하면 망원경을 들고, "꽃잎의 물방울을 찍어줘"라고 하면 현미경으로 줌인하는 것과 같습니다.
작동 원리: 사용자가 입력한 질문을 먼저 분석합니다.
- 질문이 "이 사진에 어떤 동물들이 있나요?" (전체 파악) → **넓은 시야 (Coarse)**로 그림을 봅니다.
- 질문이 "강아지의 귀 색깔은 뭐야?" (세부 파악) → **미세한 시야 (Fine)**로 그림을 봅니다.
효과: AI 가 무작위로 모든 것을 다 보지 않아도, 질문에 필요한 만큼만 적절한 해상도로 그림을 봅니다.

핵심 기능 2: "정보를 잘게 썰거나 뭉치는 스마트 정렬기 (AdaTA)"

비유: 사진 속 정보를 정리할 때, 중요한 부분 (예: 강아지의 눈) 은 고화질로 잘게 썰어 자세히 분석하고, 중요하지 않은 배경 (예: 하늘) 은 여러 픽셀을 하나로 합쳐 간소화하는 것입니다.
작동 원리: 위에서 마법사가 정한 초점에 맞춰, 그림의 정보를 효율적으로 정리합니다.
- 중요한 정보는 세부적으로 남기고,
- 전체적인 흐름은 개념적으로 요약합니다.
결과: AI 는 한 번의 작업으로 세부적인 디테일과 큰 그림을 동시에 이해할 수 있게 됩니다.

🚀 3. 어떤 효과가 있을까요? (실제 성과)

이 기술을 적용한 결과, 기존 모델들보다 놀라운 성과를 거두었습니다.

정확도 30% 향상: "이게 뭐야?"라고 물었을 때, 훨씬 더 정확하게 답합니다.
환각 (Hallucination) 20% 감소: AI 가 없는 것을 있는 것처럼 꾸며내는 오류가 크게 줄었습니다.
- 예시: 기존 모델은 "강아지가 공을 들고 있다"고 말했는데, 실제로는 공이 없었을 때 "아마 공을 들고 있겠지"라고 추측하며 거짓말을 했습니다. 하지만 그랜룰론은 세부적인 픽셀까지 확인하므로 "공이 없어요"라고 정확하게 말합니다.
의료 분야에서도 강세: 엑스레이나 수술 영상처럼 아주 미세한 차이가 중요한 분야에서도 뛰어난 성능을 보여줍니다.

💡 4. 한 줄 요약

"그랜룰론은 질문의 의도에 따라 '망원경'과 '현미경'을 자동으로 오가는 똑똑한 사진작가입니다. 덕분에 그림의 큰 흐름도 놓치지 않고, 아주 작은 디테일도 놓치지 않아, 훨씬 더 정확하고 신뢰할 수 있는 답변을 줍니다."

이 기술은 앞으로 AI 가 그림을 볼 때, 단순히 "무엇이 있는지"만 보는 것을 넘어, **"어떤 맥락에서, 얼마나 자세히 봐야 하는지"**를 스스로 판단하게 만드는 중요한 발전입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 멀티모달 대규모 언어 모델 (MLLM) 은 주로 CLIP 기반의 시각 인코더에 의존하고 있습니다. CLIP 은 이미지와 텍스트 간의 전역적 (global) 의미 정렬에 강점이 있지만, **세밀한 시각적 이해 (fine-grained visual understanding)**에는 한계가 있습니다. 반면, DINOv3와 같은 픽셀 레벨의 자기지도 학습 인코더는 국소적인 질감 (texture) 과 세부 구조를 포착하는 데 탁월하지만, **전역적 의미 추상화 (coarse-grained semantic abstraction)**가 부족하여 다중 세분성 (multi-granularity) 추론이 어렵습니다.

기존 연구들은 CLIP 과 DINO 를 병렬로 사용하거나 여러 인코더를 결합하여 이 간극을 메우려 시도했으나, 이는 계산 비용이 크고 단일 인코더 내에서 픽셀 (세부) 에서 전역 (개념) 까지 이어지는 통일된 세분성 추론을 제공하지 못한다는 근본적인 문제를 해결하지 못했습니다.

2. 제안 방법론: Granulon (Methodology)

저자들은 DINOv3 기반의 새로운 MLLM 아키텍처인 Granulon을 제안합니다. Granulon 은 픽셀 레벨 인코더의 잠재력을 활용하면서 텍스트 입력의 의미 범위에 따라 시각적 추상화 수준을 동적으로 조절하는 적응형 다중 세분성 (Adaptive Multi-Granularity) 메커니즘을 도입했습니다.

핵심 구성 요소

텍스트 기반 세분성 컨트롤러 (Text-conditioned Granularity Controller):
- 입력된 텍스트 질문의 언어적 복잡성과 참조 범위를 분석하여 최적의 시각적 추상화 수준 (세분성) 을 예측합니다.
- 질문이 "이미지의 동물은 무엇인가?" (전역적) 인 경우와 "개의 귀 색깔은 무엇인가?" (세부적) 인 경우를 구분하여, 공간 풀링 크기 ( $\alpha$ ) 와 토큰 클러스터 수 ( $\beta$ ) 를 동적으로 조절합니다.
적응형 토큰 집계 모듈 (Adaptive Token Aggregation, AdaTA):
- 컨트롤러가 예측한 세분성 파라미터를 기반으로 DINOv3 의 픽셀 특징을 처리합니다.
- 세분성 유도 풀링 (Granularity-guided Pooling): 원하는 해상도에 맞춰 특징 맵의 공간 차원을 축소합니다.
- 관계 인식 클러스터링 (Relation-aware Clustering): 유사한 주의 패턴 (attention patterns) 을 가진 토큰들을 그룹화하여 의미 있는 시각적 프로토타입을 생성합니다.
- 품질 기반 선택 (Quality-based Selection): 노이즈가 많거나 덜 중요한 클러스터를 제거하고, 가장 정보량이 많은 토큰들만 선별하여 최종 의미 토큰 (Semantic Tokens) 을 생성합니다.
통합 추론 파이프라인:
- 생성된 의미 토큰과 원래의 픽셀 레벨 토큰을 결합하여 텍스트 임베딩과 함께 LLM 백본에 입력합니다.
- 이를 통해 단일 순전파 (single forward pass) 내에서 "픽셀 $\rightarrow$ 세부 $\rightarrow$ 전역"에 이르는 통일된 추론이 가능해집니다.

학습 목표

모델은 픽셀 수준의 디테일 (local detail) 과 의미 수준의 요약 (semantic summary) 을 모두 활용하도록 학습됩니다. 작업 손실 (Task Loss) 에 더해, 질문 컨텍스트 하에서 의미 있는 픽셀 토큰과 의미 토큰의 기여도를 최대화하는 정규화 항을 추가하여 학습합니다.

3. 주요 기여 (Key Contributions)

새로운 방향성 제시: 픽셀 레벨 인코더 (DINOv3 등) 의 전역적 추상화 능력을 강화하여 MLLM 성능을 향상시키는 새로운 패러다임을 제시했습니다.
Granulon 아키텍처 개발: 텍스트 조건부 컨트롤러와 적응형 토큰 집계 (AdaTA) 를 통해 시각적 특징의 세분성을 동적으로 조절하는 모델을 제안했습니다.
성능 및 신뢰성 향상: 다양한 벤치마크에서 정확도를 높이고 할루시네이션 (Hallucination) 을 획기적으로 감소시켰으며, 기존 모든 시각 인코더를 능가하는 결과를 입증했습니다.

4. 실험 결과 (Results)

저자들은 5 가지 주요 벤치마크 (SEED-Bench, A-OKVQA, Image Captioning, FLUX-Reasoning, SurgVLM) 에서 Granulon 을 평가했습니다.

정확도 향상: 동일한 설정에서 CLIP 및 DINO 기반 베이스라인 대비 약 30% 증가한 추론 정확도를 달성했습니다.
- 예: Qwen2.5 백본 기준 SEED-Bench 에서 58.80% (CLIP 대비 +7.89%), A-OKVQA 에서 57.13% (CLIP 대비 +35.34%).
할루시네이션 감소: 약 20% 감소된 할루시네이션률을 기록했습니다. 특히 의료 분야 (SurgVLM) 에서 미세한 시각적 디테일을 구별하는 능력이 뛰어나며, CLIP 대비 Recall 이 30% 이상 향상되었습니다.
해석 가능성 분석:
- 계층별 정렬 (Layer-wise Alignment): Granulon 은 LLM 의 깊은 층으로 갈수록 시각적 특징과 텍스트 간의 정렬 (Cosine Similarity) 이 지속적으로 강화되는 반면, CLIP 기반 모델은 초기에 정렬되지만 추론이 깊어질수록 정렬도가 정체되는 것을 확인했습니다.
- 할루시네이션과 세분성: Granulon 은 일관되게 낮은 할루시네이션 점수를 보이며, 세부 정보와 전역적 의미 간의 균형을 잘 유지하는 것으로 나타났습니다.

5. 의의 및 결론 (Significance)

이 논문은 MLLM 의 시각 인코더 설계에 있어 CLIP 중심의 패러다임에서 벗어나, 픽셀 레벨 인코더를 텍스트에 의해 제어되는 다중 세분성 구조로 진화시켰다는 점에서 의의가 큽니다.

효율성: 별도의 멀티 인코더를 사용하지 않고 단일 인코더 내에서 동적 세분성 조절을 통해 계산 비용을 절감하면서도 성능을 극대화했습니다.
신뢰성: 할루시네이션을 줄이고 사실 기반 (factual grounding) 추론을 강화하여, 의료 및 과학적 추론과 같은 고신뢰도 분야에서 MLLM 의 실용성을 높였습니다.
미래 지향성: 저수준의 시각적 지각 (pixel-level perception) 과 고수준의 의미론 (high-level semantics) 을 통합하는 새로운 방향성을 제시하여 차세대 멀티모달 모델 개발의 중요한 이정표가 될 것으로 기대됩니다.