Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

이 논문은 CLIP 기반의 전역적 의미 정합과 DINOv3 의 픽셀 단위 인식 간의 간극을 해소하기 위해, 텍스트 입력의 의미 범위에 따라 시각 추상화 수준을 동적으로 조절하는 'Granulon'을 제안하여 다중 세밀도 추론 능력을 획기적으로 향상시키고 할루시네이션을 감소시킨다고 요약할 수 있습니다.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 1. 기존 AI 의 문제점: "너무 넓게 보거나, 너무 가까이만 보는 두 가지 극단"

기존의 멀티모달 AI(그림과 글을 함께 이해하는 AI) 는 주로 두 가지 방식 중 하나를 사용했습니다.

  • 방식 A (CLIP 기반): "망원경"
    • 특징: 그림 전체를 한눈에 훑어보며 "이건 강아지야", "이건 바다야" 같은 큰 개념을 잘 파악합니다.
    • 단점: 하지만 강아지의 귀가 어떤 색인지, 바다 물결의 미세한 무늬는 어떤지 같은 세부적인 디테일은 놓치기 쉽습니다. 마치 멀리서 산을 보며 "산이 있구나"는 알지만, 나무 한 그루의 잎사귀는 못 보는 것과 같습니다.
  • 방식 B (DINOv3 기반): "고배율 현미경"
    • 특징: 그림의 매우 미세한 부분 (텍스처, 질감, 작은 물체) 을 아주 잘 봅니다.
    • 단점: 하지만 전체적인 맥락이나 큰 그림을 이해하는 데는 약합니다. "이건 강아지야"라고 말하기보다 "이건 갈색 털 덩어리야"라고만 말하고, 전체적인 상황 (예: 강아지가 공을 쫓고 있다) 을 놓칠 수 있습니다.

기존의 해결책: 두 기술을 합치려고 했지만, 계산량이 너무 많고 비효율적이었습니다.


🎛️ 2. 그랜룰론 (Granulon) 의 혁신: "상황에 따라 초점을 자동으로 조절하는 스마트 카메라"

그랜룰론은 **DINOv3(현미경)**을 기반으로 하되, 질문 (텍스트) 에 따라 초점을 자동으로 조절하는 새로운 기술을 도입했습니다.

핵심 기능 1: "지시하는 마법사 (컨트롤러)"

  • 비유: 사진작가가 촬영할 때, "전체 풍경을 찍어줘"라고 하면 망원경을 들고, "꽃잎의 물방울을 찍어줘"라고 하면 현미경으로 줌인하는 것과 같습니다.
  • 작동 원리: 사용자가 입력한 질문을 먼저 분석합니다.
    • 질문이 "이 사진에 어떤 동물들이 있나요?" (전체 파악) → **넓은 시야 (Coarse)**로 그림을 봅니다.
    • 질문이 "강아지의 귀 색깔은 뭐야?" (세부 파악) → **미세한 시야 (Fine)**로 그림을 봅니다.
  • 효과: AI 가 무작위로 모든 것을 다 보지 않아도, 질문에 필요한 만큼만 적절한 해상도로 그림을 봅니다.

핵심 기능 2: "정보를 잘게 썰거나 뭉치는 스마트 정렬기 (AdaTA)"

  • 비유: 사진 속 정보를 정리할 때, 중요한 부분 (예: 강아지의 눈) 은 고화질로 잘게 썰어 자세히 분석하고, 중요하지 않은 배경 (예: 하늘) 은 여러 픽셀을 하나로 합쳐 간소화하는 것입니다.
  • 작동 원리: 위에서 마법사가 정한 초점에 맞춰, 그림의 정보를 효율적으로 정리합니다.
    • 중요한 정보는 세부적으로 남기고,
    • 전체적인 흐름은 개념적으로 요약합니다.
  • 결과: AI 는 한 번의 작업으로 세부적인 디테일과 큰 그림을 동시에 이해할 수 있게 됩니다.

🚀 3. 어떤 효과가 있을까요? (실제 성과)

이 기술을 적용한 결과, 기존 모델들보다 놀라운 성과를 거두었습니다.

  1. 정확도 30% 향상: "이게 뭐야?"라고 물었을 때, 훨씬 더 정확하게 답합니다.
  2. 환각 (Hallucination) 20% 감소: AI 가 없는 것을 있는 것처럼 꾸며내는 오류가 크게 줄었습니다.
    • 예시: 기존 모델은 "강아지가 공을 들고 있다"고 말했는데, 실제로는 공이 없었을 때 "아마 공을 들고 있겠지"라고 추측하며 거짓말을 했습니다. 하지만 그랜룰론은 세부적인 픽셀까지 확인하므로 "공이 없어요"라고 정확하게 말합니다.
  3. 의료 분야에서도 강세: 엑스레이나 수술 영상처럼 아주 미세한 차이가 중요한 분야에서도 뛰어난 성능을 보여줍니다.

💡 4. 한 줄 요약

"그랜룰론은 질문의 의도에 따라 '망원경'과 '현미경'을 자동으로 오가는 똑똑한 사진작가입니다. 덕분에 그림의 큰 흐름도 놓치지 않고, 아주 작은 디테일도 놓치지 않아, 훨씬 더 정확하고 신뢰할 수 있는 답변을 줍니다."

이 기술은 앞으로 AI 가 그림을 볼 때, 단순히 "무엇이 있는지"만 보는 것을 넘어, **"어떤 맥락에서, 얼마나 자세히 봐야 하는지"**를 스스로 판단하게 만드는 중요한 발전입니다.