RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🚇 핵심 비유: "어려운 미로 공부를 위한 단계별 훈련"

이 논문의 아이디어는 마치 초보 운전자가 복잡한 도시의 지하철 노선도를 외우고 길을 찾는 법을 배우는 과정과 같습니다.

1. 문제: "정답이 하나뿐인 시험"의 함정

기존의 AI 학습 방식은 마치 **"최종 답안만 채점하는 시험"**과 같았습니다.

상황: AI 가 "A 역에서 B 역까지 가는 법을 말해줘"라고 물으면, AI 는 여러 가지 경로를 상상하다가 결국 하나의 답을 내놓습니다.
문제: 만약 AI 가 중간에 역 이름을 잘못 읽거나, 환승 노선을 잘못 계산했다면, 최종 답이 틀렸다는 점 하나만 보고 "0 점"을 줍니다.
결과: AI 는 "어디서 실수했는지" 알 수 없고, 다음에 또 같은 실수를 반복합니다. 이를 연구자들은 '희소한 보상 (Sparse Rewards)' 문제라고 부릅니다. (정답을 맞출 때까지 기다려야 하므로 학습이 느리고 불안정함)

2. 해결책 1: "REASONMAP-PLUS(리더스맵 플러스)" - 쉬운 문제부터 시작하기

연구팀은 먼저 학습용 문제집을 새로 만들었습니다. 이것이 바로 REASONMAP-PLUS입니다.

아이디어: 처음부터 "A 에서 B 까지 가는 길"이라는 어려운 문제를 풀게 하지 않습니다.
단계별 학습:
1. 쉬운 단계: "지도에 총 몇 개의 노선이 있나요?" (단순 세기)
2. 중간 단계: "이 역을 지나는 노선은 몇 개인가요?" (부분 확인)
3. 어려운 단계: "A 역에서 B 역까지 가는 최적 경로를 찾아보세요." (복합 추론)
효과: AI 가 쉬운 문제부터 풀며 "역 이름은 이렇게 읽는구나", "노선은 이렇게 연결되네"라는 기본적인 시각적 이해를 먼저 쌓게 됩니다. 이를 '콜드 스타트 (Cold Start, 초기 학습)' 전략이라고 합니다.

3. 해결책 2: "REWARDMAP" - 상세한 피드백을 주는 코치

이제 AI 가 문제를 풀 때, 단순히 "맞음/틀림"만 알려주는 게 아니라 상세한 피드백을 주는 시스템을 도입했습니다. 이것이 REWARDMAP의 핵심입니다.

상세 보상 (Detail Rewards):
- 예: "A 역에서 B 역까지 가는 길"을 물었을 때, 최종 경로가 틀렸더라도 **"출발역 이름은 맞았네! (+1 점)", "환승 역 이름도 맞았네! (+1 점)"**처럼 부분 점수를 줍니다.
- 마치 수영 코치가 "발차기는 좋았지만, 손동작이 틀렸어"라고 구체적으로 알려주는 것과 같습니다.
난이도 인식 (Difficulty-Aware):
- 지도가 복잡할수록 (예: 서울 지하철처럼 노선이 많을수록), AI 가 잘 풀었을 때 더 큰 점수를 줍니다. 반대로 쉬운 지도에서는 점수 비중을 낮춥니다.
- 이렇게 하면 AI 는 어려운 문제를 풀 때 더 열심히 노력하게 됩니다.

4. 학습 방법: "점진적인 훈련 (Multi-Stage RL)"

AI 는 이 두 가지 비법을 섞어서 훈련합니다.

**쉬운 문제 (REASONMAP-PLUS)**로 시작해서 AI 가 지도를 보는 눈을 키웁니다.
그다음 상세한 점수 시스템을 적용하며 점점 어려운 지하철 경로 찾기 문제로 넘어갑니다.
AI 는 시행착오를 겪으면서도, "아, 이 부분은 잘했구나"라는 **작은 성취감 (보상)**을 받으며 자연스럽게 실력이 늡니다.

🌟 이 연구의 성과

이 방법을 적용한 AI 모델은 다음과 같은 놀라운 변화를 보였습니다.

지하철 지도: 길을 찾는 정확도가 크게 향상되어, 기존 최고 성능 모델들과도 경쟁할 수 있게 되었습니다.
일반적인 능력: 지하철 지도뿐만 아니라, 차트 분석, 공간 감각, 복잡한 그림 이해 등 다른 분야에서도 실력이 좋아졌습니다. (비유하자면, 지하철 지도를 잘 읽는 법을 배운 AI 가 이제 지도를 보는 눈이 예리해져서 다른 그림도 잘 해석하게 된 것입니다.)

💡 한 줄 요약

"복잡한 지하철 지도를 읽는 AI 에게, 처음부터 어려운 시험을 치르게 하지 않고, 쉬운 문제부터 풀게 하며, 틀려도 부분 점수를 주는 상세한 코칭을 통해 실력을 키워주었다."

이 연구는 AI 가 단순히 정답만 맞추는 것을 넘어, 왜 그 답이 나왔는지 단계별로 생각하고 시각 정보를 정확히 이해하는 능력을 키울 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

세밀한 시각 추론의 한계: 멀티모달 대형 언어 모델 (MLLM) 은 구조화된 시각 입력 (예: 교통 지도, 전철도) 에 대한 세밀한 시각 추론 (fine-grained visual reasoning) 에서 여전히 어려움을 겪고 있습니다. 특히 'REASONMAP' 벤치마크는 고해상도 전철도에서 경로 계획과 같은 작업이 시각 이해와 공간 추론을 동시에 요구할 때, 최신 모델조차 실패율이 높음을 보여줍니다.
희소 보상 (Sparse Rewards) 의 문제: 강화 학습 (RL) 을 이러한 복잡한 작업에 적용할 때, 최종 답변이 맞는지 여부만 확인되는 '희소 보상' 신호로 인해 최적화가 불안정해지고 탐색이 비효율적이 됩니다. 긴 추론 체인 (long reasoning chain) 을 거친 후에만 보상이 주어지므로, 모델이 학습하기 어렵습니다.
기존 방법의 부족: 기존에 널리 쓰이는 지도 미세 조정 (SFT) 은 밀집된 감독 신호를 제공하지만, 복잡한 시각 추론 작업에 내재된 긴 체인 의사결정 능력을 효과적으로 길러주지 못합니다.

2. 방법론 (Methodology)

저자들은 REWARDMAP이라는 다단계 강화 학습 (Multi-stage RL) 프레임워크를 제안하며, 이를 위해 REASONMAP-PLUS 데이터셋을 구축했습니다.

가. REASONMAP-PLUS 데이터셋 구축

목적: RL 의 '콜드 스타트 (cold-start)'를 위한 밀집된 보상 신호를 제공하기 위해 확장된 데이터셋입니다.
구성: 기존 REASONMAP 의 계획 (planning) 질문을 확장하여 5 가지 범주로 구성되었습니다.
- 전역 카운팅 (Global Counting): 지도 내 전체 노선 수 등.
- 국소 카운팅 (Local Counting): 두 역 사이의 중간 역 수, 특정 역을 지나는 노선 수 등.
- True or False: 두 역이 같은 노선에 있는지, 특정 역이 특정 노선에 있는지 등.
난이도 조절: 지도의 난이도 (쉬움, 중간, 어려움) 와 질문의 난이도에 따라 데이터가 분류되어, 단순한 지각 (perception) 에서 복잡한 추론으로 이어지는 자연스러운 난이도 연속체 (continuum) 를 형성합니다.

나. REWARDMAP 프레임워크의 핵심 구성 요소

난이도 인지 보상 설계 (Difficulty-Aware Reward Design):
- 세부 보상 (Detail Reward): 최종 정답뿐만 아니라, 출발역, 도착역, 노선명, 환승역, 구간 수 등 정답의 구성 요소별로 부분 점수를 부여합니다. 이를 통해 희소 보상 문제를 완화하고 더 풍부한 감독 신호를 제공합니다.
- 난이도 가중치 (Difficulty-Aware Weighting): 지도의 난이도와 질문의 난이도 (예: 환승 횟수) 에 따라 전체 보상에 가중치를 부여하여, 어려운 샘플에 더 큰 학습 신호를 제공합니다.
- 보상 공식: $R = W_{difficulty} \times (R_{format} + R_{correctness} + \alpha \times R_{detail})$
다단계 RL 커리큘럼 (Multi-Stage RL Curriculum):
- 글로벌 커리큘럼 원칙: 학습 데이터를 '이진 판단 (True/False)' $\rightarrow$ '카운팅' $\rightarrow$ '경로 계획' 순서로, 그리고 '세밀한 시각 이해' $\rightarrow$ '복잡한 추론' 순서로 단계적으로 배치합니다.
- 로컬 확률성 원칙: 각 단계 내에서 샘플을 무작위로 섞어 (shuffling) 고정된 커리큘럼에 과적합되는 것을 방지합니다.
- 효과: 단순한 지각 작업에서 밀집된 보상을 통해 모델을 초기화한 후, 점차 복잡한 추론 작업으로 이동함으로써 GRPO(Group Relative Policy Optimization) 기반의 RL 학습을 안정화합니다.

3. 주요 기여 (Key Contributions)

REASONMAP-PLUS 데이터셋: 단순한 계획 작업에서 세밀한 지각과 논리적 추론을 아우르는 5 가지 범주, 4,018 개의 질문으로 구성된 확장 데이터셋을 공개했습니다.
REWARDMAP 프레임워크:
- 세부 보상과 난이도 가중치를 결합한 보상 설계로 희소 보상 문제를 해결했습니다.
- SFT 기반 초기화를 대체하는 다단계 RL 커리큘럼을 도입하여, 보상 신호와 작업 목표의 정렬을 초기부터 유지했습니다.
광범위한 성능 향상: 전철도 벤치마크뿐만 아니라, 공간 추론, 세밀한 시각 추론, 일반 작업을 아우르는 6 개의 벤치마크에서도 일관된 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

주요 벤치마크 (REASONMAP & REASONMAP-PLUS):
- REWARDMAP 은 기존 RL 베이스라인 (GRPO, REINFORCE++, ReMax) 과 SFT 기반 방법론을 모두 능가했습니다.
- 오픈소스 모델 중 가장 강력한 성능을 보인 Qwen2.5-VL-72B-Instruct 보다도 REASONMAP 에서 더 높은 점수를 기록했으며, 폐쇄형 모델 (Seed1.5-VL) 에 근접하거나 이를 능가하는 성능을 달성했습니다.
일반화 능력 (6 개 벤치마크):
- REWARDMAP 으로 학습된 모델은 SpatialEval, HRBench, MMStar 등 6 개의 다양한 벤치마크에서 평균 **3.47%**의 성능 향상을 보였습니다.
- 특히 SpatialEval에서는 13.51% 의 큰 폭의 향상을 기록하여 공간 추론 능력이 크게 강화되었음을 입증했습니다.
정성적 분석:
- 기존 모델들이 겪던 '시각적 혼동 (Visual Confusion)' (예: 역 이름이나 노선 오인) 과 '할루시네이션 (Hallucination)' (예: 존재하지 않는 경로 생성) 이 REWARDMAP 을 통해 현저히 감소했습니다.
모델 규모 및 아키텍처:
- Qwen2.5-VL-3B, 7B, 32B 등 다양한 규모의 모델과 Kimi-VL 아키텍처에서도 일관된 성능 향상을 보여 방법론의 확장성을 입증했습니다.

5. 의의 및 결론 (Significance)

희소 보상 문제 해결: 구조화된 시각 작업 (전철도 등) 에서 발생하는 희소 보상 문제를 '세부 보상'과 '다단계 커리큘럼'을 통해 체계적으로 해결한 최초의 프레임워크 중 하나입니다.
MLLM 의 시각 추론 능력 진화: 단순한 이미지 인식 수준을 넘어, 복잡한 구조적 정보 (지도, 차트 등) 를 이해하고 논리적으로 추론하는 MLLM 의 능력을 한 단계 끌어올렸습니다.
확장 가능성: 본 연구에서 제안된 세부 보상 (Detail Reward) 과 다단계 RL 전략은 전철도 외에도 차트 (Chart), 다이어그램 등 다른 구조화된 시각 도메인으로 쉽게 확장 가능함을 보였습니다.

이 논문은 강화 학습을 활용한 멀티모달 모델의 고도화 과정에서, 데이터의 난이도 조절과 세밀한 보상 설계가 얼마나 중요한지를 실증적으로 보여주었습니다.