Composition-Grounded Data Synthesis for Visual Reasoning

이 논문은 주석 데이터가 부족한 시각적 추론 도메인 (예: 차트, 문서, 웹페이지) 에서 소량의 시드 질문을 원시적 요소로 분해하고 재조합하여 대규모 합성 데이터를 생성하고, 이를 통해 다중 모달 대규모 언어 모델의 일반화 추론 능력을 향상시키는 'COGS'프레임워크를 제안합니다.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"COGS"**라는 새로운 방법을 소개합니다. 이 방법을 쉽게 이해하기 위해 **'요리 학교'**와 **'레시피'**에 비유해 보겠습니다.

🍳 핵심 비유: 요리 학교와 레시피

지금까지 인공지능 (MLLM) 이 복잡한 그림 (차트나 웹사이트) 을 보고 문제를 풀 때, 수천 개의 예제 문제와 정답을 외우는 방식으로 공부했습니다. 하지만 현실에서는 모든 종류의 차트나 웹사이트에 대한 정답을 구하기 어렵습니다. 마치 "전 세계의 모든 요리를 다 맛본 요리사"를 구하기 힘든 것과 같습니다.

이 연구는 **"적은 재료로 다양한 요리를 만들어내는 법"**을 가르치는 새로운 방식을 제안합니다.


1. 문제: "요리사"가 부족해요

인공지능은 일반적인 질문에는 잘 답하지만, **"이 차트에서 2020 년과 2021 년의 매출 차이를 계산하고, 여기에 10% 를 더한 값은 얼마인가?"**처럼 여러 단계를 거쳐야 하는 복잡한 추론 문제는 잘 못합니다. 이런 문제를 풀 수 있는 정답 데이터는 인터넷에 거의 없기 때문입니다.

2. 해결책: COGS (조립형 데이터 합성)

저자들은 **"기존에 있는 아주 작은 양의 문제 (씨앗 질문)"**만 있으면 된다고 말합니다.

  • 씨앗 (Seed Questions): 아주 적은 수의 복잡한 문제들입니다.
  • 해체 (Decomposition): 이 문제들을 **기본적인 단계 (요리 재료)**로 쪼갭니다.
    • 예시: "매출 차이를 계산하고 10% 더하기"라는 문제는 → [1. 매출 숫자 찾기] + [2. 뺄셈 하기] + [3. 곱셈 하기] 로 나뉩니다.
    • 이를 **레시피의 기본 단계 (Factor)**라고 부릅니다.
  • 재조합 (Recomposition): 이제 새로운 그림 (차트나 웹사이트) 을 가져옵니다. 위에서 쪼개낸 기본 단계들을 섞어서 완전히 새로운 문제를 만듭니다.
    • 예시: [새로운 차트의 A 숫자 찾기] + [새로운 차트의 B 숫자 찾기] + [뺄셈 하기] = 새로운 문제!
    • 이 과정을 통해 몇 개의 씨앗 문제에서 수천 개의 새로운 문제를 자동으로 만들어냅니다.

3. 학습 방법: "단계별 칭찬" (Process Rewards)

기존에는 답이 맞으면 "좋아!"라고 하고 틀리면 "아쉽네"라고 했습니다. 하지만 COGS 는 중간 과정을 봅니다.

  • 기존 방식: 최종 답만 확인. (예: "정답은 50 원입니다" → O/X)
  • COGS 방식: 단계별로 확인합니다.
    • "숫자 찾기는 잘했네? (O)"
    • "뺄셈은 실수했네? (X)"
    • "곱셈은 완벽해! (O)"
    • 이렇게 중간 단계마다 점수를 주면서 인공지능에게 "어디서 실수했는지"를 정확히 가르쳐 줍니다. 마치 요리사가 "양념은 잘 넣었는데, 불 조절을 잘못했네"라고 구체적으로 알려주는 것과 같습니다.

4. 결과: 왜 이 방법이 좋을까요?

  • 적은 데이터로 큰 효과: 아주 적은 씨앗 데이터만으로도 인공지능이 복잡한 추론 능력을 갖게 됩니다.
  • 유연한 적응: 한 번 배운 '기본 단계 (레시피)'를 다른 종류의 차트나 웹사이트에도 적용할 수 있습니다. (예: 주식 차트에서 배운 뺄셈 능력을 날씨 차트에도 적용)
  • 실제 성능 향상: 실험 결과, 기존 모델들보다 훨씬 정확하게 복잡한 문제를 풀었고, 특히 단계를 많이 거치는 문제에서 큰 향상을 보였습니다.

📝 한 줄 요약

"COGS 는 인공지능에게 '정답을 외우는 것'이 아니라, '문제를 작은 조각으로 나누고 다시 조립하는 논리적 사고법'을 가르쳐서, 적은 데이터로도 복잡한 문제를 해결하게 만드는 새로운 학습법입니다."

이 방법은 인공지능이 차트, 문서, 웹사이트 등 다양한 디지털 환경에서 인간처럼 논리적으로 생각할 수 있는 능력을 키우는 데 큰 도움을 줄 것으로 기대됩니다.