Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"그래프 오브 마크 (Graph-of-Mark, GoM)"**라는 새로운 기술을 소개합니다. 이 기술을 쉽게 이해하기 위해 **'인공지능의 눈과 뇌'**에 비유해 설명해 드리겠습니다.

🎨 핵심 비유: "그림 위에 연결선과 설명을 그려주는 기술"

지금까지의 인공지능 (멀티모달 모델) 은 사진을 볼 때, **"사물 (Object) 들의 나열"**로만 보았습니다. 마치 책상 위에 사과, 컵, 책이 무작위로 쌓여 있는 것을 보고 "사과가 있고, 컵이 있고, 책이 있구나"라고만 생각할 뿐, **"사과가 컵의 왼쪽에 있고, 책이 컵 아래에 있다"**는 관계는 잘 파악하지 못했습니다.

이런 문제를 해결하기 위해 기존에는 사물 위에 **숫자 (1, 2, 3)**만 붙여주었습니다 (Set-of-Mark). 하지만 숫자만 붙여주면, 인공지능은 "아, 1 번이 사과구나"는 알 수 있어도, "1 번 사과가 2 번 컵과 어떤 관계인지"는 여전히 헷갈려 합니다.

**GoM(그래프 오브 마크)**은 이 문제를 이렇게 해결합니다:

"사진 위에 사물들을 점 (Node) 으로 표시하고, 그 점들을 화살표 (Edge) 로 연결해 '관계'를 직접 그려주는 것"

마치 지하철 노선도를 그리는 것과 같습니다.

  • 기존 방식: 역 (사물) 이름만 써놓음. (어디서 어디로 갈 수 있는지 모름)
  • GoM 방식: 역 이름과 함께 **선 (관계)**을 그려서 "이 역은 저 역보다 왼쪽에 있고, 그 아래에 있다"는 것을 시각적으로 보여줌.

🚀 이 기술이 어떻게 작동할까요? (3 단계 과정)

  1. 사물 찾기 (탐색):
    인공지능이 사진을 보고 "여기에 사람, 개, 나무가 있네"라고 먼저 찾습니다.
  2. 관계 그리기 (연결):
    찾은 사물들 사이에 화살표를 그립니다.
    • "개는 나무 앞에 있다" → 화살표에 '앞에'라고 적고 그립니다.
    • "사람은 의자 위에 있다" → 화살표에 '위에'라고 적습니다.
    • 이때 깊이 (앞/뒤) 나 거리 (가깝다/멀다) 같은 3 차원적인 정보도 함께 계산해서 그림에 반영합니다.
  3. 질문하기 (대화):
    이제 사용자는 이 '관계가 그려진 사진'을 인공지능에게 보여줍니다.
    • 질문: "오븐 아래에 화분이 있나요?"
    • 기존 AI: "화분이 오븐 옆에 있네요." (정답: 아님)
    • GoM AI: (화살표를 보고) "아, 화분 (3 번) 이 오븐 (1 번) 의 위쪽에 있네요. 아니요, 아래가 아닙니다." (정답: 맞음)

💡 왜 이 기술이 특별한가요?

  1. 재학습이 필요 없습니다 (Training-Free):
    거대한 인공지능 모델을 다시 가르칠 필요 없이, 사진을 조금만 꾸며주면 기존 모델도 갑자기 공간 감각을 갖게 됩니다. 마치 안경을 끼고 선명하게 보는 것과 같습니다.
  2. 가벼우면서도 강력합니다:
    무거운 컴퓨터를 쓰지 않아도, 오픈소스 모델 (Qwen, Gemma 등) 이라도 이 기술을 쓰면 공간 추론 능력이 최대 11% 까지 향상됩니다.
  3. 실생활에 바로 적용 가능:
    • 로봇: 로봇이 "책상 왼쪽에 있는 컵을 줘"라고 들었을 때, 컵과 책상의 관계를 정확히 파악해 줍니다.
    • 의료: 엑스레이 사진에서 "종양이 뼈 뒤에 있는지"를 정확히 판단해 줍니다.
    • 자율주행: "앞차의 오른쪽에 보행자가 있는지"를 빠르게 인식합니다.

📊 결론: "눈을 뜨게 해주는 안경"

이 논문은 인공지능에게 "사물 자체"만 보는 것이 아니라, "사물 사이의 관계"를 보는 눈을 뜨게 해주는 방법을 제시했습니다.

기존의 인공지능이 "나열된 물건"을 보았다면, GoM을 쓴 인공지능은 **"살아있는 장면 (Scene)"**을 이해합니다. 숫자나 화살표 같은 간단한 시각적 단서만 추가해도, 인공지능의 추리 능력이 비약적으로 발전한다는 것을 증명했습니다.

한 줄 요약:

"사진에 사물들을 점으로 찍고 화살표로 연결해 '관계'를 그려주면, 인공지능도 공간 감각을 터득해 훨씬 똑똑해진다!"