Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

이 논문은 전역적 맥락과 객체 간 상호작용을 고려하여 정밀한 영역 이해와 복합적 추론을 가능하게 하는 'Grasp Any Region(GAR)' 모델과 이를 평가하는 벤치마크를 제안하며, 기존 모델들을 능가하는 성능을 입증합니다.

Haochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Jiani Zheng, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 모델의 문제점: "초점만 맞춘 안경"

기존의 인공지능 모델들은 이미지를 볼 때 전체 장면을 한눈에 보는 능력은 뛰어났습니다. 하지만, 이미지의 특정 부분 (예: 구석에 있는 작은 물체) 을 자세히 보려고 할 때는 실수를 많이 했습니다.

  • 비유: 마치 망원경을 들고 숲속을 바라보는 상황입니다.
    • 망원경으로 나뭇잎 하나를 아주 가까이서 보면 (세부 정보), 그 나뭇잎이 '실제 나뭇잎'인지, 아니면 '나뭇잎 모양의 장난감'인지 구별하기 어렵습니다. 주변 환경 (숲 전체) 을 보지 못하기 때문입니다.
    • 반대로 숲 전체를 보면 (전체 맥락), 나뭇잎의 디테일은 흐릿해집니다.
    • 기존 모델들은 이 두 가지를 동시에 잘 하지 못해, "개구리 모양의 슬리퍼"를 보고 "실제 개구리"라고 잘못 말하거나, 거울에 비친 그림자를 실제 사물이라고 착각하는 실수를 저질렀습니다.

2. GAR 모델의 핵심 아이디어: "현명한 탐정"

이 논문에서 제안한 GAR(Grasp Any Region) 모델은 이 문제를 해결하기 위해 두 가지 능력을 동시에 갖췄습니다.

A. "RoI 정렬 특징 재생" (RoI-aligned Feature Replay)

이 기술은 GAR 가 이미지를 볼 때 한 번에 전체를 보면서도, 관심 있는 부분만 확대해서 보는 방식을 사용합니다.

  • 비유: 현명한 탐정을 상상해 보세요.
    • 탐정은 사건 현장 (이미지 전체) 을 먼저 훑어보며 분위기 (맥락) 를 파악합니다.
    • 그리고 특정 단서 (사용자가 지정한 부분) 가 궁금해지면, 현장 전체를 잃지 않은 채 그 단서만 확대경으로 자세히 들여다봅니다.
    • 그래서 "이건 개구리 모양의 슬리퍼야. 왜냐하면 주변에 침대와 베개가 있거든"이라고 정확히 추론할 수 있습니다.

B. "여러 지시사항을 한 번에 이해" (Multiple Prompts Interaction)

기존 모델은 한 번에 하나의 물체만 설명하는 데 익숙했지만, GAR 는 여러 개의 물체 사이의 관계를 이해합니다.

  • 비유: 축구 경기 해설가가 되어보세요.
    • 기존 모델은 "공이 여기 있다", "선수가 저기 있다"라고 개별적으로 말합니다.
    • GAR 는 "선수가 공을 차고, 그 공이 골대 쪽으로 날아가고, 골키퍼는 그 공을 막으려고 점프한다"처럼 여러 요소가 어떻게 상호작용하는지 이야기할 수 있습니다.

3. 새로운 시험지: "GAR 벤치 (GAR-Bench)"

이 모델이 얼마나 똑똑한지 확인하기 위해, 연구팀은 새로운 시험지를 만들었습니다.

  • 기존 시험: "이 그림의 개는 무슨 색이야?" (단순한 질문)
  • GAR 벤치: "거울에 비친 개와 실제 개 중, 누가 거울 안에 있는 거야?" (맥락 이해 필요)
    • 이 시험지는 단순히 물체를 설명하는 것을 넘어, 여러 물체 간의 복잡한 관계와 **거울, 그림자 같은 비실체 (Non-Entity)**를 구별하는 능력을 평가합니다.

4. 놀라운 성과: "작은 몸집, 큰 두뇌"

실험 결과, GAR 모델은 놀라운 성과를 보였습니다.

  • 크기 대비 성능: GAR-1B(10 억 파라미터) 모델은 **InternVL3-78B(780 억 파라미터)**라는 거대 모델보다 더 좋은 성적을 냈습니다.
    • 비유: 작은 체구의 천재 체조 선수가 거대하지만 둔한 거인보다 더 유연하고 정확한 동작을 보여주는 것과 같습니다.
  • 영상 이해 능력: 이 모델은 정지된 이미지로만 훈련되었음에도 불구하고, 동영상에서도 뛰어난 성능을 발휘했습니다. 마치 정지된 사진을 보고도 "다음에 무슨 일이 일어날지" 유추할 수 있는 직관을 가진 것과 같습니다.

5. 결론: "수동적인 관찰자에서 능동적인 대화자로"

이 연구의 핵심은 인공지능이 단순히 "이게 뭐야?"라고 물으면 대답하는 수동적인 관찰자를 넘어, 사용자가 "저기 있는 개와 저기 있는 고양이 사이에는 무슨 관계가 있어?"라고 물으면 능동적으로 분석하고 대화할 수 있는 단계로 나아갔다는 점입니다.

한 줄 요약:

GAR 모델은 "전체 맥락을 놓치지 않으면서 세부 사항을 파고들 수 있는 현명한 탐정"처럼, 복잡한 이미지 속의 여러 물체들이 서로 어떤 관계를 맺고 있는지 정확하게 이해하고 설명해 주는 인공지능입니다.

이 기술은 앞으로 의료 영상 분석, 자율 주행, 복잡한 장면 이해 등 다양한 분야에서 더 정밀한 인공지능 서비스를 가능하게 할 것으로 기대됩니다.