Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"그래프 오브 마크 (Graph-of-Mark, GoM)"**라는 새로운 기술을 소개합니다. 이 기술을 쉽게 이해하기 위해 **'인공지능의 눈과 뇌'**에 비유해 설명해 드리겠습니다.

🎨 핵심 비유: "그림 위에 연결선과 설명을 그려주는 기술"

지금까지의 인공지능 (멀티모달 모델) 은 사진을 볼 때, **"사물 (Object) 들의 나열"**로만 보았습니다. 마치 책상 위에 사과, 컵, 책이 무작위로 쌓여 있는 것을 보고 "사과가 있고, 컵이 있고, 책이 있구나"라고만 생각할 뿐, **"사과가 컵의 왼쪽에 있고, 책이 컵 아래에 있다"**는 관계는 잘 파악하지 못했습니다.

이런 문제를 해결하기 위해 기존에는 사물 위에 **숫자 (1, 2, 3)**만 붙여주었습니다 (Set-of-Mark). 하지만 숫자만 붙여주면, 인공지능은 "아, 1 번이 사과구나"는 알 수 있어도, "1 번 사과가 2 번 컵과 어떤 관계인지"는 여전히 헷갈려 합니다.

**GoM(그래프 오브 마크)**은 이 문제를 이렇게 해결합니다:

"사진 위에 사물들을 점 (Node) 으로 표시하고, 그 점들을 화살표 (Edge) 로 연결해 '관계'를 직접 그려주는 것"

마치 지하철 노선도를 그리는 것과 같습니다.

기존 방식: 역 (사물) 이름만 써놓음. (어디서 어디로 갈 수 있는지 모름)
GoM 방식: 역 이름과 함께 **선 (관계)**을 그려서 "이 역은 저 역보다 왼쪽에 있고, 그 아래에 있다"는 것을 시각적으로 보여줌.

🚀 이 기술이 어떻게 작동할까요? (3 단계 과정)

사물 찾기 (탐색):
인공지능이 사진을 보고 "여기에 사람, 개, 나무가 있네"라고 먼저 찾습니다.
관계 그리기 (연결):
찾은 사물들 사이에 화살표를 그립니다.
- "개는 나무 앞에 있다" → 화살표에 '앞에'라고 적고 그립니다.
- "사람은 의자 위에 있다" → 화살표에 '위에'라고 적습니다.
- 이때 깊이 (앞/뒤) 나 거리 (가깝다/멀다) 같은 3 차원적인 정보도 함께 계산해서 그림에 반영합니다.
질문하기 (대화):
이제 사용자는 이 '관계가 그려진 사진'을 인공지능에게 보여줍니다.
- 질문: "오븐 아래에 화분이 있나요?"
- 기존 AI: "화분이 오븐 옆에 있네요." (정답: 아님)
- GoM AI: (화살표를 보고) "아, 화분 (3 번) 이 오븐 (1 번) 의 위쪽에 있네요. 아니요, 아래가 아닙니다." (정답: 맞음)

💡 왜 이 기술이 특별한가요?

재학습이 필요 없습니다 (Training-Free):
거대한 인공지능 모델을 다시 가르칠 필요 없이, 사진을 조금만 꾸며주면 기존 모델도 갑자기 공간 감각을 갖게 됩니다. 마치 안경을 끼고 선명하게 보는 것과 같습니다.
가벼우면서도 강력합니다:
무거운 컴퓨터를 쓰지 않아도, 오픈소스 모델 (Qwen, Gemma 등) 이라도 이 기술을 쓰면 공간 추론 능력이 최대 11% 까지 향상됩니다.
실생활에 바로 적용 가능:
- 로봇: 로봇이 "책상 왼쪽에 있는 컵을 줘"라고 들었을 때, 컵과 책상의 관계를 정확히 파악해 줍니다.
- 의료: 엑스레이 사진에서 "종양이 뼈 뒤에 있는지"를 정확히 판단해 줍니다.
- 자율주행: "앞차의 오른쪽에 보행자가 있는지"를 빠르게 인식합니다.

📊 결론: "눈을 뜨게 해주는 안경"

이 논문은 인공지능에게 "사물 자체"만 보는 것이 아니라, "사물 사이의 관계"를 보는 눈을 뜨게 해주는 방법을 제시했습니다.

기존의 인공지능이 "나열된 물건"을 보았다면, GoM을 쓴 인공지능은 **"살아있는 장면 (Scene)"**을 이해합니다. 숫자나 화살표 같은 간단한 시각적 단서만 추가해도, 인공지능의 추리 능력이 비약적으로 발전한다는 것을 증명했습니다.

한 줄 요약:

"사진에 사물들을 점으로 찍고 화살표로 연결해 '관계'를 그려주면, 인공지능도 공간 감각을 터득해 훨씬 똑똑해진다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 멀티모달 언어 모델 (MLM) 은 텍스트와 이미지를 통합하여 이해하는 데 뛰어난 성능을 보이지만, 공간 추론 (Spatial Reasoning) 능력에서는 여전히 한계를 보입니다.
핵심 문제: 최신 모델들은 이미지를 단순히 객체들의 집합 ("Bag of Objects") 으로 인식하는 경향이 있어, 객체 간의 상대적 위치 (위/아래, 왼쪽/오른쪽) 나 깊이 (앞/뒤) 와 같은 공간적 관계를 파악하는 데 어려움을 겪습니다.
기존 방법의 한계:
- 파인튜닝 (Fine-tuning): 공간 인식 능력을 향상시키기 위해 모델을 재학습시키는 것은 계산 비용이 많이 들고, 새로운 도메인이나 작업에 적용하기 어렵습니다.
- 기존 비주얼 프롬프팅 (Visual Prompting): 'Set-of-Mark (SoM)'과 같은 기존 기법은 객체 영역에 숫자나 기호를 표시하여 객체를 식별하게 하지만, 객체 간의 관계 (Relation) 를 고려하지 않고 독립적인 개체로만 처리합니다. 이로 인해 복잡한 공간적 맥락을 이해하는 데 실패합니다.

2. 제안 방법: Graph-of-Mark (GoM)

저자들은 훈련이 필요 없는 (Training-free) 새로운 비주얼 프롬프팅 기법인 Graph-of-Mark (GoM) 을 제안합니다. 이는 입력 이미지에 장면 그래프 (Scene Graph) 를 오버레이하여 공간 추론을 유도하는 픽셀 레벨의 방법입니다.

핵심 프로세스

객체 탐지 및 분할 (Object Detection & Segmentation):
- 여러 오픈-보카불러리 (Open-vocabulary) 탐지기와 분할 모델 (YOLOv8, OWL-V2, SAM-HQ 등) 을 앙상블하여 이미지 내 객체의 위치와 클래스를 식별합니다.
- 객체 영역을 정밀한 마스크로 변환합니다.
관계 추정 (Relation Estimation):
- 객체 쌍 간의 공간적 관계를 계산하여 그래프의 엣지 (Edge) 를 생성합니다.
- 방향성 (Directional): 상/하, 좌/우 (객체 중심점의 변위 벡터 기반).
- 깊이 (Depth Stacking): 전/후 (단안 깊이 추정 모델인 MiDaS 를 사용하여 카메라와의 거리 차이 기반).
- 근접성 (Proximity): 가까이 있음, 닿음 (Overlap 또는 거리 임계값 기반).
- 관계는 7 가지 유형 (방향, 깊이, 근접) 으로 분류되며, 필요시 'touching', 'very_close' 등의 수식어가 추가됩니다.
필터링 (Filtering):
- 사용자의 텍스트 쿼리 (Task Prompt) 와 관련 없는 객체나 관계를 제거하여 그래프의 노이즈를 줄입니다.
- 쿼리와 직접 관련된 객체와 그 상호작용 관계만 선별하여 유지합니다.
장면 그래프 렌더링 (Scene Graph Rendering):
- 노드 (Nodes): 객체 영역에 클래스별 색상으로 마스크를 칠하고, 고유 ID(숫자 또는 텍스트) 를 표시합니다.
- 엣지 (Edges): 객체 간의 관계를 화살표로 시각화하며, 화살표 위에 관계 라벨 (예: "Above", "Left Of") 을 텍스트로 표시합니다.
- 충돌 방지: 텍스트와 화살표가 겹치지 않도록 최적의 위치를 계산하여 배치합니다.
프롬프팅 전략:
- Visual SG: 이미지만 수정된 상태 ( $I_{SG}$ ) 로 입력하여 모델이 시각적 단서만으로 관계를 추론하게 함.
- Visual + Textual SG: 수정된 이미지와 함께 텍스트로 표현된 그래프 구조 ( $T_{SG}$ ) 를 프롬프트에 추가하여 보조함.

3. 주요 기여 (Key Contributions)

최초의 픽셀 레벨 그래프 프롬프팅: 객체 간의 관계를 명시적으로 시각화하여 MLM 의 공간 추론 능력을 향상시키는 첫 번째 훈련 불필요 (Training-free) 방법론을 제시했습니다.
구조화된 공간 정보의 직접적 주입: 기존 방법들이 객체 식별에 그쳤다면, GoM 은 관계 (Relation) 를 시각적 프롬프트의 일부로 포함시켜 모델이 "객체들의 네트워크"로 장면을 인식하도록 유도합니다.
범용성 및 호환성: 특정 모델 아키텍처나 재학습 없이 어떤 MLM 에든 플러그 앤 플레이 (Plug-and-play) 방식으로 적용 가능합니다.
오픈 소스 공개: 코드, 전처리된 데이터셋, 평가 스크립트를 MIT 라이선스로 공개하여 재현성과 후속 연구를 장려했습니다.

4. 실험 결과 (Results)

평가 환경: 3 개의 오픈소스 MLM (Gemma-3, Qwen-2.5-VL, LlamaV-o1) 과 4 개의 데이터셋 (GQA, VQAv1, VQAv2, RefCOCOg) 을 사용하여 평가했습니다.
성능 향상:
- GoM 은 모든 모델과 데이터셋에서 Zero-shot 성능을 일관되게 향상시켰습니다.
- 특히 시각적 질문 응답 (VQA) 과 지시어 이해 (REC) 작업에서 기존 SoM 및 기타 프롬프팅 기법보다 최대 11% 포인트까지 정확도를 높였습니다.
- LlamaV-o1과 같은 추론 모델에서 가장 큰 성능 향상을 보였습니다 (VQA 에서 83.6% 달성).
분석 및 통찰:
- 그래프 밀도: 3~~10 개의 객체와 4~~16 개의 관계가 포함된 그래프가 최적의 성능을 보였습니다. 과도한 주석은 노이즈가 되어 성능을 저하시켰습니다.
- 모달리티 효과: 시각적 그래프 ( $I_{SG}$ ) 만 사용하는 것이 텍스트로만 설명하는 것보다 성능이 더 좋았으며, 두 가지를 결합했을 때 추가적인 이득을 보였습니다.
- ID 유형: VQA 작업에서는 텍스트 ID 가, REC 작업에서는 숫자 ID 가 더 효과적이었습니다.
- 효율성: 이미지당 약 1.13 초의 추가 처리 시간이 소요되지만, 공간 추론 능력의 비약적인 향상으로 인해 비용 대비 효율이 매우 높습니다.

5. 의의 및 결론 (Significance & Conclusion)

공간 인식의 패러다임 전환: MLM 이 이미지를 단순한 객체 모음이 아닌, 상호 연결된 관계의 네트워크로 인식하도록 유도하여 기계 지각의 핵심 난제 중 하나인 공간 추론 문제를 해결하는 새로운 방향을 제시했습니다.
실제 응용 가능성: 의료 영상 분석 (수술 중 객체 위치 파악), 로봇 조작, 증강 현실 (AR), 자율 주행 등 공간 이해가 필수적인 분야에서 즉시 적용 가능한 강력한 도구입니다.
미래 전망: 복잡한 장면을 위한 초그래프 (Hypergraph), 스테레오 비전을 통한 깊이 추론 향상, 비디오 이해를 위한 시계열 모델링 등으로 확장 가능성이 큽니다.

요약하자면, Graph-of-Mark는 멀티모달 모델의 공간 추론 한계를 극복하기 위해, 객체 간의 관계를 시각적 그래프로 직접 이미지 위에 그리는 혁신적인 프롬프팅 기법으로, 재학습 없이도 모델의 성능을 획기적으로 개선하는 것을 입증했습니다.

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

🎨 핵심 비유: "그림 위에 연결선과 설명을 그려주는 기술"

🚀 이 기술이 어떻게 작동할까요? (3 단계 과정)

💡 왜 이 기술이 특별한가요?

📊 결론: "눈을 뜨게 해주는 안경"

1. 문제 정의 (Problem Definition)

2. 제안 방법: Graph-of-Mark (GoM)

핵심 프로세스

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers