On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 비유: "미로 찾기 대회"

이 연구는 AI 를 미로 찾기 대회에 참가하는 학생으로 상상해 보세요.

훈련 과정 (In-Distribution):
- 학생들은 3x3, 4x4, 5x5, 6x6 크기의 작은 미로만 연습했습니다.
- 연습할 때, 선생님이 "다음은 위로 가자"라고 말해주거나 (글), 미로 지도를 보여주고 (그림), 혹은 두 가지를 섞어서 설명해주기도 했습니다.
시험 문제 (Out-of-Distribution):
- 실제 시험에서는 7x7, 8x8, 심지어 10x10 크기의 거대한 미로가 나왔습니다.
- 또한, 시작점과 도착점 사이의 거리가 훈련할 때보다 훨씬 먼 경우도 있었습니다.
- 핵심 질문: "작은 미로만 연습한 학생이, 훨씬 큰 미로를 처음 봤을 때 진짜로 길을 찾을 수 있을까?"

🔍 연구 결과: "무엇이 진짜 실력일까?"

연구진은 AI 모델들에게 다양한 방식으로 미로를 풀게 했더니 놀라운 결과가 나왔습니다.

1. 그림만 보는 것만으로는 부족해요 (그림 vs 글)

비유: 미로 지도를 그림으로만 보여주는 경우, AI 는 길을 잘 찾지 못했습니다. 마치 "그림은 잘 보지만, 설명을 듣지 못해 방향을 잃은 학생" 같습니다.
결과: 오히려 글 (텍스트) 로 미로를 설명해주는 방식이 훨씬 더 잘 풀었습니다. AI 는 그림 속의 복잡한 정보를 글로 변환해서 이해하는 편이 더 낫다는 뜻입니다.

2. 단순히 답만 외우면 안 돼요 (CoT 의 중요성)

비유: 단순히 "A 지점에서 B 로 가라"라고 답만 외우는 학생은, 미로가 조금만 커져도 당황해서 길을 잃습니다.
결과: **생각의 과정 (Chain-of-Thought)**을 말로 설명하면서 풀게 한 AI 는 훨씬 잘 풀었습니다. 즉, "왜 이쪽으로 갈까?"라고 스스로에게 질문하고 답을 찾아가는 과정이 중요합니다.

3. 최고의 비법: "글 + 지도"의 조합 (가장 중요한 발견!)

비유: 가장 뛰어난 학생은 두 가지를 섞어서 공부했습니다.
1. 글로 설명: "지금 오른쪽에 구멍이 있으니 위로 가야 해." (자연어 설명)
2. 지도로 확인: "그럼 이 지도를 업데이트해보자. 내가 한 칸 위로 이동했어." (ASCII 글자로 된 지도)
결과: 이 **혼합 방식 (글 설명 + 텍스트 지도)**을 사용한 AI 만이, 훈련받지 않은 10x10 같은 거대한 미로에서도 40% 이상을 성공적으로 통과했습니다. 다른 방식은 거의 0% 에 가까웠습니다.

4. "마법 같은" 기술은 아직 안 돼요

최근 어떤 연구에서는 AI 가 그림을 그리는 '잠재 공간 (Latent Space)'에서 생각하게 하는 기술을 소개했습니다. 하지만 이 연구에서는 그런 복잡한 기술보다, 단순히 깔끔한 글과 지도를 섞어주는 것이 더 효과적이라는 것을 증명했습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문의 결론은 매우 명확합니다.

"AI 가 정말 똑똑해지려면, 단순히 많은 데이터를 외우는 게 아니라 '논리'를 배우는 훈련 방식이 중요해요."

패턴 암기 vs 알고리즘 학습: 대부분의 AI 는 훈련 데이터와 비슷한 상황 (작은 미로) 에서는 잘하지만, 조금만 달라지면 (큰 미로) 패닉에 빠집니다. 이는 AI 가 진짜 로직을 배운 게 아니라, 데이터의 '패턴'을 외웠기 때문입니다.
포맷의 힘: 하지만 **올바른 설명 방식 (글 + 텍스트 지도)**을 사용하면, AI 는 훈련받지 않은 새로운 상황에서도 꽤 잘 적응할 수 있습니다.

🚀 요약

이 연구는 **"AI 에게 미로를 풀게 할 때, 그림만 보여주기보다는 '글로 설명하고 텍스트로 지도를 그려주면', AI 가 훨씬 더 똑똑하게 새로운 미로를 해결할 수 있다"**는 것을 증명했습니다.

이는 앞으로 더 똑똑한 AI 를 만들 때, **데이터를 어떻게 표현하느냐 (포맷)**가 얼마나 중요한지 보여주는 중요한 지표가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대규모 언어 모델 (LLM) 과 대규모 비전 - 언어 모델 (LVLM) 에 추론 (Reasoning) 능력을 통합하는 것은 최근 성능 향상을 가져왔습니다. 특히 체인 오브 생각 (Chain-of-Thought, CoT) 기법은 복잡한 작업 해결 능력을 크게 향상시켰습니다.
문제: 그러나 CoT 추론 모델의 분포 외 (Out-of-Distribution, OOD) 일반화 능력은 여전히 모호하게 정의되어 있고 잘 이해되지 않고 있습니다. 기존 연구들은 CoT 가 데이터의 통계적 패턴을 단순히 암기하거나 매칭하는 것일 뿐, 진정한 알고리즘적 학습을 수행하지는 않는다고 지적합니다.
핵심 질문: 단순한 시각적 계획 작업 (Visual Planning) 에서 CoT 추론이 훈련 분포 (In-Distribution, ID) 를 벗어난 조건 (예: 더 큰 지도, 더 먼 목표 거리) 에서 얼마나 잘 일반화될 수 있는가? 그리고 입력 형식 (이미지 vs 텍스트) 과 CoT 형식이 이 일반화에 어떤 영향을 미치는가?

2. 방법론 (Methodology)

저자들은 추론 모델의 일반화 능력을 엄격하게 평가하기 위해 통제된 실험 환경을 구축했습니다.

작업 (Task): FROZENLAKE 기반의 그리드 내비게이션 작업을 사용했습니다. 모델은 지도 (맵) 를 보고 장애물 (구덩이) 을 피하면서 시작점에서 목표 (보물) 까지 이동하는 일련의 동작 (UP, DOWN, LEFT, RIGHT) 을 생성해야 합니다.
- 이 작업은 인간에게는 간단하지만 최신 LLM 에게는 까다롭습니다.
- 작업 난이도를 지도 크기 (Map Size), 시작점 - 목표점 거리 ( $d_\infty$ ), 최적 해답 길이를 조절하여 통제할 수 있습니다.
데이터 표현 (Representations):
- 입력: 이미지, 텍스트 설명 (Description), 표 (Table), ASCII 기반 그리드 (Grid) 등 4 가지 형식을 사용했습니다.
- CoT 추론 흔적 (Reasoning Traces): 각 단계에서 다음 동작을 결정하는 과정을 다음과 같은 형식으로 표현했습니다.
  1. Description: 자연어로 추론 과정을 서술.
  2. Table/Grid: 다음 이동 후의 지도 상태를 텍스트 (표 또는 그리드) 로 시각화.
  3. Combined (Grid/Table + Description): 자연어 설명과 지도 상태 시각화를 결합.
실험 설정:
- 기저 모델: Qwen2.5-VL-7B-Instruct 사용.
- 학습: 지도 크기 3x3~6x6 데이터로 감독 학습 (SFT) 수행.
- 평가: 훈련 데이터와 동일한 크기 (ID) 와 다른 크기 (7x7~10x10, OOD) 에 대한 테스트 수행. 특히 시작점과 목표점의 거리가 훈련 데이터보다 큰 ( $d_\infty \ge 6$ ) 경우를 중점적으로 평가했습니다.

3. 주요 기여 (Key Contributions)

통제된 평가 프레임워크 구축: 입력 형식, CoT 형식, 그리고 다양한 분포 이동 (Distribution Shifts) 을 정밀하게 제어할 수 있는 FROZENLAKE 기반 벤치마크를 제안했습니다.
형식과 일반화의 상관관계 규명: CoT 의 형식 (Format) 이 OOD 일반화 성능에 결정적인 영향을 미친다는 것을 발견했습니다.
최적의 CoT 전략 제시: 단순히 텍스트 설명만 사용하는 것이 아니라, 그리드 (또는 표) 와 자연어 설명을 결합한 CoT가 가장 강력한 OOD 일반화 성능을 보인다는 것을 입증했습니다.
멀티모달 접근법의 한계 지적: 이미지 기반 입력과 최근 제안된 잠재 공간 (Latent Space) 추론 (Mirage 등) 이 순수 텍스트 기반 모델보다 성능이 낮음을 보여주었습니다.

4. 실험 결과 (Results)

분포 내 (ID) 성능:
- CoT 를 사용하는 모든 모델이 CoT 를 사용하지 않는 모델 (No CoT) 보다 성능이 우수했습니다.
- 텍스트 기반 입력 (그리드, 표, 설명) 이 이미지 기반 입력보다 일관되게 높은 정확도를 보였습니다.
분포 외 (OOD) 일반화 (지도 크기 증가):
- 대부분의 모델은 훈련된 6x6 지도보다 큰 7x7~10x10 지도에서 성능이 급격히 떨어졌습니다.
- 예외: 그리드 입력 + 그리드/표 + 설명 (Grid + Description) CoT를 사용한 모델만이 10x10 지도에서도 유의미한 성능 (평균 41% 이상, 10x10 에서 20% 이상) 을 유지했습니다.
시작점 - 목표점 거리 ( $d_\infty$ ) 변화:
- 훈련 데이터보다 거리가 먼 경우 ( $d_\infty \ge 6$ ), 단순 설명 CoT 나 이미지 입력 모델의 정확도는 0% 에 수렴했습니다.
- 반면, 그리드 + 설명 CoT 모델은 $d_\infty \ge 6$ 조건에서도 10x10 지도에서 20% 의 정확도를 유지하며 가장 강력한 일반화 능력을 입증했습니다.
최적 해답 길이:
- 해답 길이가 길어질수록 (13 이상) 성능이 떨어지지만, Grid+Description CoT 는 다른 형식들보다 더 긴 해답 길이까지 일반화되었습니다.
기타 모델 비교:
- 최근 제안된 잠재 공간 추론을 사용하는 Mirage 모델은 단순 텍스트 CoT 나 이미지 입력만 사용하는 본 연구의 모델보다 성능이 낮았습니다. 이는 Mirage 의 연속 공간 추론이 이 작업에서 큰 이점을 주지 못함을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

패턴 매칭 vs 알고리즘 학습: CoT 추론이 ID 데이터에서는 잘 작동하지만, 작은 분포 이동에도 실패하는 경향은 모델이 진정한 알고리즘적 추론을 학습한 것이 아니라 패턴 매칭 (Pattern Matching) 을 수행하고 있음을 시사합니다.
형식의 중요성: 그러나 적절한 데이터 형식 (특히 구조화된 시각적 표현과 자연어 설명의 결합) 을 선택하면 OOD 일반화 성능을 획기적으로 개선할 수 있음을 증명했습니다. 이는 모델이 현재 지도 상태를 시각적으로 추적 (그리드) 하고, 자연어로 논리적으로 추론 (Description) 하는 것이 효과적임을 보여줍니다.
미래 연구 방향: 이 연구는 추론 모델이 진정한 알고리즘적 능력을 학습하도록 하기 위한 새로운 벤치마크와 방향성을 제시합니다. 강화학습 (RL) 과의 결합, 멀티모달 CoT 의 발전, 그리고 이론적 분석 등을 위한 기초를 마련했습니다.

요약하자면, 이 논문은 멀티모달 LLM 의 추론 일반화 능력이 여전히 제한적임을 지적하면서도, 입력과 추론 과정의 '형식 (Format)'을 전략적으로 설계함으로써 (특히 텍스트 기반 구조화 표현과 자연어의 결합), 복잡한 분포 이동 상황에서도 강력한 일반화 성능을 달성할 수 있음을 실증적으로 보여줍니다.

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

🧩 핵심 비유: "미로 찾기 대회"

🔍 연구 결과: "무엇이 진짜 실력일까?"

1. 그림만 보는 것만으로는 부족해요 (그림 vs 글)

2. 단순히 답만 외우면 안 돼요 (CoT 의 중요성)

3. 최고의 비법: "글 + 지도"의 조합 (가장 중요한 발견!)

4. "마법 같은" 기술은 아직 안 돼요

💡 이 연구가 우리에게 주는 교훈

🚀 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank