Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"COGS"**라는 새로운 방법을 소개합니다. 이 방법을 쉽게 이해하기 위해 **'요리 학교'**와 **'레시피'**에 비유해 보겠습니다.

🍳 핵심 비유: 요리 학교와 레시피

지금까지 인공지능 (MLLM) 이 복잡한 그림 (차트나 웹사이트) 을 보고 문제를 풀 때, 수천 개의 예제 문제와 정답을 외우는 방식으로 공부했습니다. 하지만 현실에서는 모든 종류의 차트나 웹사이트에 대한 정답을 구하기 어렵습니다. 마치 "전 세계의 모든 요리를 다 맛본 요리사"를 구하기 힘든 것과 같습니다.

이 연구는 **"적은 재료로 다양한 요리를 만들어내는 법"**을 가르치는 새로운 방식을 제안합니다.

1. 문제: "요리사"가 부족해요

인공지능은 일반적인 질문에는 잘 답하지만, **"이 차트에서 2020 년과 2021 년의 매출 차이를 계산하고, 여기에 10% 를 더한 값은 얼마인가?"**처럼 여러 단계를 거쳐야 하는 복잡한 추론 문제는 잘 못합니다. 이런 문제를 풀 수 있는 정답 데이터는 인터넷에 거의 없기 때문입니다.

2. 해결책: COGS (조립형 데이터 합성)

저자들은 **"기존에 있는 아주 작은 양의 문제 (씨앗 질문)"**만 있으면 된다고 말합니다.

씨앗 (Seed Questions): 아주 적은 수의 복잡한 문제들입니다.
해체 (Decomposition): 이 문제들을 **기본적인 단계 (요리 재료)**로 쪼갭니다.
- 예시: "매출 차이를 계산하고 10% 더하기"라는 문제는 → [1. 매출 숫자 찾기] + [2. 뺄셈 하기] + [3. 곱셈 하기] 로 나뉩니다.
- 이를 **레시피의 기본 단계 (Factor)**라고 부릅니다.
재조합 (Recomposition): 이제 새로운 그림 (차트나 웹사이트) 을 가져옵니다. 위에서 쪼개낸 기본 단계들을 섞어서 완전히 새로운 문제를 만듭니다.
- 예시: [새로운 차트의 A 숫자 찾기] + [새로운 차트의 B 숫자 찾기] + [뺄셈 하기] = 새로운 문제!
- 이 과정을 통해 몇 개의 씨앗 문제에서 수천 개의 새로운 문제를 자동으로 만들어냅니다.

3. 학습 방법: "단계별 칭찬" (Process Rewards)

기존에는 답이 맞으면 "좋아!"라고 하고 틀리면 "아쉽네"라고 했습니다. 하지만 COGS 는 중간 과정을 봅니다.

기존 방식: 최종 답만 확인. (예: "정답은 50 원입니다" → O/X)
COGS 방식: 단계별로 확인합니다.
- "숫자 찾기는 잘했네? (O)"
- "뺄셈은 실수했네? (X)"
- "곱셈은 완벽해! (O)"
- 이렇게 중간 단계마다 점수를 주면서 인공지능에게 "어디서 실수했는지"를 정확히 가르쳐 줍니다. 마치 요리사가 "양념은 잘 넣었는데, 불 조절을 잘못했네"라고 구체적으로 알려주는 것과 같습니다.

4. 결과: 왜 이 방법이 좋을까요?

적은 데이터로 큰 효과: 아주 적은 씨앗 데이터만으로도 인공지능이 복잡한 추론 능력을 갖게 됩니다.
유연한 적응: 한 번 배운 '기본 단계 (레시피)'를 다른 종류의 차트나 웹사이트에도 적용할 수 있습니다. (예: 주식 차트에서 배운 뺄셈 능력을 날씨 차트에도 적용)
실제 성능 향상: 실험 결과, 기존 모델들보다 훨씬 정확하게 복잡한 문제를 풀었고, 특히 단계를 많이 거치는 문제에서 큰 향상을 보였습니다.

📝 한 줄 요약

"COGS 는 인공지능에게 '정답을 외우는 것'이 아니라, '문제를 작은 조각으로 나누고 다시 조립하는 논리적 사고법'을 가르쳐서, 적은 데이터로도 복잡한 문제를 해결하게 만드는 새로운 학습법입니다."

이 방법은 인공지능이 차트, 문서, 웹사이트 등 다양한 디지털 환경에서 인간처럼 논리적으로 생각할 수 있는 능력을 키우는 데 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 사전 훈련된 멀티모달 대규모 언어 모델 (MLLM) 은 다양한 작업에서 우수한 성능을 보이지만, 주석 (annotation) 이 수집하기 어려운 도메인, 특히 **인공 이미지 (차트, 렌더링된 문서, 웹페이지 등)**에 대한 고급 추론 능력은 여전히 부족합니다.
핵심 과제: 이러한 도메인에서는 대규모 인간 주석 추론 데이터셋이 부재합니다. 기존 데이터 증강 방법들은 주로 텍스트 공간에서의 추론 경로를 탐색하거나 수동 휴리스틱에 의존하여, 시각적 특징에 기반한 구체적인 추론 요소를 체계적으로 확장하는 데 한계가 있었습니다.
목표: 소수의 '시드 (seed)' 질문 세트만으로도 MLLM 에 고급 추론 능력을 부여하고, 이를 통해 다양한 인공 이미지 도메인에서 일반화 가능한 추론 능력을 학습시키는 효율적인 데이터 생성 프레임워크를 개발하는 것입니다.

2. 방법론 (Methodology: COGS)

저자들은 **COGS (COmposition-Grounded data Synthesis)**라는 데이터 효율적 프레임워크를 제안합니다. 이 프레임워크는 세 가지 주요 단계로 구성됩니다.

1 단계: 시드 데이터 분해 (Seed Data Decomposition)

핵심 아이디어: 복잡한 질문을 더 작은 원시적 지각 (perception) 및 **추론 (reasoning) 요소 (factors)**로 분해합니다.
- 예: "2019-2023 년 예측에서 에너지 성장률과 공공 서비스 성장률의 절대 차이"라는 질문은 [지각 1: 에너지 성장률 식별] + [지각 2: 공공 서비스 성장률 식별] + [계산: 절대 차이 계산] 로 분해됩니다.
구현: MLLM 을 프롬프팅하여 시드 질문과 해당 이미지를 기반으로 이러한 요소들을 추출하고, 각 요소에 대한 하위 질문 (subquestions) 과 중간 답변을 생성합니다. 이를 통해 도메인 내 가능한 요소들의 집합 $F$ 를 구축합니다.

2 단계: 요소 재조합을 통한 질문 생성 (Question Generation via Factor Recomposition)

핵심 아이디어: 추출된 요소들을 새로운 이미지 (레이블이 없는 차트나 웹페이지 등) 와 결합하여 새로운 질문을 생성합니다.
과정:
1. 새로운 이미지 $I$ 를 선택합니다.
2. 요소 집합 $F$ 에서 무작위로 샘플링된 하위 집합을 선택합니다.
3. MLLM 에게 이 요소들을 새로운 이미지에 맞춰 재조합하도록 프롬프팅하여 일관된 전체 질문과 하위 질문, 그리고 해당 답변을 생성합니다.
특징: 이 과정은 레이블이 없는 이미지만으로도 대규모의 합성 질문 - 답변 쌍을 생성할 수 있게 하며, 각 생성된 데이터는 전체 질문뿐만 아니라 하위 질문과 중간 답변을 포함합니다.

3 단계: 강화 학습 기반 미세 조정 (RL-based Fine-tuning)

알고리즘: 생성된 데이터를 사용하여 사전 훈련된 MLLM 을 **GRPO (Group Relative Policy Optimization)**로 미세 조정합니다.
보상 모델 (Reward Modeling): 기존 방식인 최종 답변 정답 여부만 평가하는 것이 아니라, 생성된 **하위 질문 (factor-level)**의 정확도를 기반으로 **프로세스 보상 (Process Rewards)**을 설계합니다.
- StandardRM: 최종 답변 정답 여부만 평가.
- ProcessRM-sum: 최종 답변 정확도 + 하위 질문 정확도의 합.
- ProcessRM-max (제안): 최종 답변 정확도와 하위 질문 정확도 중 최대값을 기반으로 하되, 이론적으로 정책 (policy) 의 순서를 보존하는 방식. 저자들은 하위 신호가 노이즈가 있을 수 있으므로 sum 방식보다 max 방식이 더 안정적임을 이론적 및 실험적으로 증명했습니다.

3. 주요 기여 (Key Contributions)

데이터 효율성: 소수의 시드 질문만으로 도메인 특화 추론 능력을 확장할 수 있는 체계적인 데이터 생성 프레임워크를 제시했습니다.
구성적 합성 (Compositional Synthesis): 질문을 원시 요소로 분해하고 재조합함으로써, 단순한 템플릿 기반 생성을 넘어 다양한 추론 유형을 가진 대규모 합성 데이터를 생성합니다.
프로세스 수준의 강화 학습: 중간 추론 단계 (하위 질문) 에 대한 보상을 도입하여 모델이 단계별 추론을 올바르게 수행하도록 유도합니다.
범용성: 차트 (Chart) 도메인뿐만 아니라 웹페이지 (Webpage/GUI) 도메인에서도 동일한 프레임워크가 효과적임을 입증했습니다.

4. 실험 결과 (Results)

차트 추론 (ChartQAPro):
- COGS 로 미세 조정된 Qwen2.5-VL-7B 모델은 오픈소스 기반 모델 중 가장 높은 정확도 (52.02%)를 기록했으며, 상용 모델 (GPT-4o-mini 등) 과도 경쟁하거나 능가하는 성능을 보였습니다.
- 특히 **다중 단계 추론 (multi-hop)**과 **복합적 추론 (compositional)**이 필요한 질문에서 성능 향상이 가장 두드러졌습니다.
- 추론 단계 (factor) 가 많은 질문일수록 COGS 의 이점이 커지는 경향을 보였습니다.
데이터 혼합 (Data Mixture):
- 여러 데이터셋 (ChartQAPro + MMC) 을 혼합하여 학습했을 때, 단순 데이터 레벨 혼합보다 **요소 레벨 혼합 (Factor-level mixture)**이 더 좋은 전이 (transfer) 효과를 보였습니다. 이는 모델이 특정 데이터셋에 과적합되지 않고 일반화 가능한 추론 능력을 학습했음을 시사합니다.
웹페이지 추론 (VisualWebBench):
- 차트 도메인 외의 웹페이지 UI 이해 작업에서도 COGS 는 비특화 모델 중 가장 높은 성능 (88.04%) 을 달성하여 프레임워크의 확장성을 입증했습니다.
추론 모델 비교:
- 이론적 분석과 실험을 통해 ProcessRM-max 보상 모델이 ProcessRM-sum보다 노이즈가 있는 하위 신호에서도 정책의 순서를 보존하며 더 나은 성능을 낸다는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

데이터 부족 해결: 주석 데이터가 부족한 시각적 추론 도메인에서, 소량의 시드 데이터만으로도 고품질의 추론 능력을 학습시킬 수 있는 새로운 패러다임을 제시했습니다.
일반화 능력: 단순한 데이터 양의 증가가 아니라, 질문의 구조적 요소 (factors) 를 재조합함으로써 다양한 도메인으로의 전이 학습을 가능하게 했습니다.
미래 방향: 이 연구는 긴 문맥 (long-context) 을 가진 복잡한 문서 이해, 사전 훈련 단계로의 통합, 그리고 웹 에이전트 등 다운스트림 태스크로의 전이 가능성 등을 통해 향후 멀티모달 모델의 추론 능력 향상을 위한 중요한 방향성을 제시합니다.

요약하자면, COGS는 "질문을 구성 요소로 분해하고 재조합한다"는 아이디어를 통해, 레이블이 없는 이미지와 소수의 시드 질문만으로 MLLM 의 고급 시각적 추론 능력을 획기적으로 향상시키는 데이터 효율적 프레임워크입니다.