From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "가짜 지도"를 보고 길을 찾는 아이들

지금까지 인공지능을 가르칠 때는 실제 사진 (예: 거리의 사람, 자동차, 공원) 을 많이 보여주고 "이게 어디에 있니?"라고 물어보며 학습시켰습니다.

하지만 이 방식에는 치명적인 결함이 있었습니다.

비유: 마치 아이에게 "학교는 항상 중앙에 있고, 공원은 항상 왼쪽에 있다"는 식으로 편향된 지도만 보여준 것과 같습니다.
결과: 아이는 진짜 지리를 배운 게 아니라, "중앙에 무언가 있으면 학교일 거야"라는 단순한 규칙만 외웠습니다. 그래서 실제 시험장에서 학교가 오른쪽에 있거나, 공원이 위에 있으면 완전히 당황하고 길을 잃어버립니다.

논문은 기존 데이터가 너무 편향되어 있어 (어떤 물체는 항상 중앙에 있고, 어떤 색상은 항상 왼쪽에 있다는 식), 인공지능이 진짜 공간 감각을 익히지 못한다고 지적합니다.

2. 해결책: "완벽한 인형극"으로 훈련시키기

연구진은 이 문제를 해결하기 위해 **실제 사진 대신 완벽하게 통제된 '인공적인 장면 **(Synthetic Scenes)을 만들어 학습시켰습니다.

비유: 실제 거리의 혼잡함 대신, 완벽하게 정리된 인형극 무대를 만든 것입니다.
- 인형 (물체) 의 색상, 모양, 크기를 모두 다 바꿔가며 (빨간 공, 파란 별, 초록 삼각형 등)
- 무대 위 9 개의 칸 (위쪽, 중앙, 아래쪽 등) 에 균등하게 배치했습니다.
- 어떤 칸에도 치우치지 않고, 모든 위치를 골고루 연습시켰습니다.

이렇게 하면 인공지능은 "중앙에 있는 게 정답이야"라는 나쁜 습관을 버리고, 진짜로 "물체가 어디에 있는지"를 판단하는 능력을 기를 수 있습니다.

3. 놀라운 결과: 인형극 연습이 실제 세상에서도 통했다!

이 연구의 가장 큰 발견은 두 가지입니다.

균형 잡힌 연습이 핵심: 인공적으로 만든 데이터로 훈련한 인공지능은, 실제 복잡한 사진 (COCO 데이터셋) 을 보았을 때 훨씬 잘 작동했습니다. 특히 이전에는 길을 잃던 중앙이나 모서리 부분에서도 정확도가 크게 향상되었습니다.
**양보다 질 **(Quality over Quantity) 놀랍게도, 실제 사진 16 만 장을 다 보여주고 학습시킨 것보다, 인공 데이터 1,300 장으로 균형 있게 훈련한 것이 더 잘했습니다.
- 비유: "실제 거리에서 10 년 동안 헤매며 실수만 반복하는 것보다, 완벽하게 정리된 지도로 1 주일 동안 집중 훈련하는 것이 더 효율적"이라는 뜻입니다. 실제 데이터는 너무 많은 '잡음'과 '편견'을 포함하고 있어서 오히려 인공지능을 혼란스럽게 만들었습니다.

요약: 이 연구가 우리에게 주는 메시지

이 논문은 "인공지능을 가르칠 때, 무조건 많은 데이터를 주는 게 답이 아니다"라고 말합니다.

기존 방식: 실제 사진 (편향됨, 오류 많음) → 인공지능이 편견을 학습함.
새로운 방식: 완벽하게 통제된 인공 데이터 (편향 없음, 오류 없음) → 인공지능이 진짜 공간 감각을 익힘 → 실제 세상에서도 잘 작동함.

마치 운동선수가 실제 경기 (실제 데이터) 에서 실수만 반복하다가, **훈련장 **(인공 데이터)에서 모든 상황을 완벽하게 시뮬레이션하며 훈련한 뒤 다시 경기장에 나가서 금메달을 딴 것과 같은 원리입니다.

이 연구는 인공지능이 단순히 "데이터를 외우는" 것이 아니라, 논리적으로 세상을 이해하는 능력을 키우기 위해서는 질서 정연하고 편향 없는 훈련 환경이 필수적임을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

시각 - 언어 모델 (VLM) 은 다양한 추론 작업에서 뛰어난 성능을 보이지만, 시각적 공간 추론 (Spatial Reasoning) 능력에는 여전히 심각한 한계가 존재합니다. 기존 연구들은 주로 실제 세계 (Real-world) 의 데이터를 수집하여 주석 (Annotation) 을 달고 모델을 파인튜닝하는 방식을 사용했습니다. 그러나 이 접근법은 다음과 같은 근본적인 문제점을 내포하고 있습니다:

데이터 편향 (Bias) 과 불균형: 실제 데이터는 객체의 위치, 색상, 크기 등에 있어 불균형하게 분포되어 있습니다. 예를 들어, 객체가 이미지 중앙에 위치할 확률이 높습니다.
주석 오류 및 허위 상관관계 (Spurious Correlations): 모델이 공간적 위치를 추론하는 것이 아니라, 데이터셋의 편향 (예: 객체가 항상 중앙에 있음) 이나 다른 객체와의 공존 (Co-occurrence) 같은 허위 단서를 학습하여 성능이 높게 측정되는 '착시'가 발생합니다.
일반화 실패: 편향된 데이터로 학습된 모델은 훈련 분포와 다른 실제 환경 (예: 객체가 모서리에 있을 때) 에서는 성능이 급격히 떨어집니다.

기존의 합성 데이터 (Synthetic Data) 연구들도 분포 제어나 주석 품질 측면에서 한계가 있어, 체계적이고 편향 없는 공간 추론 능력 향상을 위한 새로운 접근이 필요했습니다.

2. 제안된 방법론 (Methodology)

저자들은 VLM 의 공간 추론 능력을 향상시키기 위해 통제된 합성 데이터 (Controlled Synthetic Data) 를 기반으로 한 파인튜닝 전략을 제안했습니다. 핵심은 데이터의 생성과 주석을 완전히 통제하여 편향을 제거하는 것입니다.

A. 태스크 정의: 절대 위치 추론 (Absolute Position Task)

이미지를 $3 \times 3$ 그리드 (9 개 영역) 로 나누고, 특정 객체가 어느 영역에 위치하는지 질문하는 VQA (Visual Question Answering) 태스크를 정의했습니다.
예: "초록색 원은 어디에 있나요?" (정답: "상단 우측" 등)

B. 통제된 합성 데이터셋 구축 (Dataset Construction)

CIVET 프레임워크 활용: 객체의 속성 (색상, 모양, 크기, 위치) 을 체계적으로 조합하여 데이터를 생성했습니다.
- 속성: 6 가지 색상, 4 가지 모양 (원, 삼각형, 사각형, 별), 2 가지 크기, $9 \times 9$ 그리드 내의 정밀한 위치.
- 균형 잡힌 분포: 모든 속성 조합이 균등하게 포함되도록 설계하여 위치 편향을 완전히 제거했습니다.
- 오류 없는 주석: 알고리즘적으로 생성되므로 주석 오류가 없습니다.
데이터셋 구성:
- 학습용 (Training): 특정 색상 - 모양 조합 (예: 흰색 기본 모양) 으로 구성.
- 테스트용 (Synthetic Test): 학습 데이터와 다른 색상 - 모양 조합 (예: 다양한 색상의 플러스 기호) 으로 구성하여 과적합 방지 및 일반화 능력 평가.
- 실제 데이터 (COCO): COCO 데이터셋을 기반으로 동일한 태스크를 수행하는 실제 세계 데이터셋을 구축하여 전이 (Transfer) 능력 평가.

C. 실험 설정

모델: CLIP, LLaVA-NeXT, LLaVA-OneVision, Molmo, Qwen2-VL 등 5 가지 주요 VLM 아키텍처 평가.
파인튜닝: LoRA (Low-Rank Adaptation) 를 사용하여 효율적으로 학습.
비교 실험:
1. Unmatched Setting: 합성 데이터로 학습 $\rightarrow$ COCO 데이터로 테스트 (전이 능력 평가).
2. Matched Setting: COCO 데이터로 학습 $\rightarrow$ COCO 데이터로 테스트 (기존 방식 비교).
3. 데이터 규모 및 복잡성 분석: 학습 데이터 양의 변화와 합성 데이터 내 방해물 (Distractors) 추가 효과를 분석.

3. 주요 기여 및 발견 (Key Contributions & Findings)

1. 통제된 합성 데이터의 학습 효과 (RQ1)

편향 제거 및 균일한 성능: 합성 데이터로 파인튜닝한 모델은 학습 전에는 특정 영역 (주로 상단) 에 편향되어 있었으나, 학습 후 모든 공간 영역에서 균일하고 거의 완벽한 (Near-perfect) 정확도를 달성했습니다.
소량 데이터의 효율성: 전체 합성 데이터의 10% 만으로도 모델은 최적의 성능에 도달했습니다. 이는 통제된 데이터가 소량으로도 강력한 학습 신호를 제공함을 의미합니다.

2. 실제 세계로의 전이 능력 (RQ2)

실제 데이터 성능 향상: 합성 데이터로 학습한 모델은 COCO 데이터셋에서 약 13%~21% 의 성능 향상을 보였습니다. 이는 합성 데이터에서 학습된 공간 추론 능력이 실제 복잡한 환경에도 효과적으로 전이됨을 입증합니다.
실제 데이터 학습의 역설 (The Paradox of Real Data): 흥미롭게도, 전체 COCO 학습 데이터 (약 16 만 개) 로 파인튜닝한 모델은 성능이 급격히 하락했습니다 (일부 모델은 0% 에 수렴). 이는 실제 데이터의 노이즈와 편향이 모델이 일관된 공간 구조를 학습하는 것을 방해한다는 것을 보여줍니다.
품질 vs 양: 균형을 맞춘 소규모 COCO 서브셋 (1,300 개) 으로 학습한 경우 전체 COCO 데이터보다 성능이 좋았으며, 이는 데이터의 '질'과 '균형'이 '양'보다 중요함을 시사합니다.

3. 아키텍처별 차이 및 분석

Encoder-Decoder 모델 (LLaVA, Molmo 등): 합성 데이터 학습을 통해 공간 표현이 재구성되어 전이 성능이 크게 향상되었습니다.
Dual-Encoder 모델 (CLIP): 합성 데이터 학습의 이점을 거의 얻지 못했습니다. 이는 아키텍처적 한계로 인해 공간 추론 능력을 효과적으로 학습하거나 전이하지 못함을 시사합니다.
레이어별 분석: 파인튜닝을 통해 모델의 초기 레이어에서 공간 정보가 더 명확하게 인코딩되는 것을 확인했습니다.

4. 장면 복잡성 (Scene Complexity) 의 영향

합성 데이터에 방해물 (Distractors) 을 추가하여 학습했을 때, 적당한 수준의 복잡성 (3 개 정도의 방해물) 은 실제 세계로의 전이 성능을 향상시켰습니다. 하지만 과도한 복잡성 (5 개 이상) 은 오히려 성능을 저하시켰습니다.

4. 결론 및 의의 (Significance)

이 논문은 VLM 의 공간 추론 능력 향상을 위해 통제된 합성 데이터가 필수적임을 입증했습니다.

데이터의 질적 우위: 방대한 양의 편향된 실제 데이터보다, 체계적으로 설계된 소량의 균형 잡힌 합성 데이터가 모델의 일반화 능력과 공간 이해도를 훨씬 효과적으로 향상시킵니다.
실제 적용 가능성: 합성 데이터 학습은 실제 배포 환경 (Real-world deployment) 에서 객체 위치가 예측 불가능한 상황에서도 모델이 견고하게 작동하도록 돕습니다.
미래 방향: 공간 추론뿐만 아니라 관계, 인과, 시간적 추론 등 다른 추론 영역에서도 통제된 합성 데이터가 진단, 학습, 벤치마킹의 핵심 도구로 활용될 수 있음을 시사합니다.

요약하자면, 이 연구는 "더 많은 데이터가 항상 좋은 것은 아니며, 통제되고 편향 없는 데이터가 모델의 진정한 추론 능력을 키우는 열쇠" 라는 중요한 통찰을 제공합니다.