Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

이 논문은 대규모 시각 중심 데이터와 추론 체인을 자동 생성하는 프레임워크를 제안하여, 이를 통해 학습된 오픈 소스 모델이 기존 폐쇄형 모델을 능가하는 성능을 보이며 텍스트 및 오디오 추론 등 다양한 영역으로의 긍정적 전이 효과를 입증했습니다.

David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

게시일 2026-02-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈만 뜨고 있는 아이"와 "수학 문제집"

지금까지 AI(컴퓨터) 는 이미지를 보고 "이게 뭐야?"라고 물으면 대답하는 건 잘했지만, "왜 그런지", "어떻게 연결되는지" 같은 복잡한 논리를 펼치는 건 서툴렀습니다. 마치 눈은 잘 뜨지만, 논리적으로 생각할 수 없는 아이와 같습니다.

기존에는 이런 능력을 키우기 위해 사람이 직접 문제를 만들고 답을 적어주거나, 수학 문제 같은 딱딱한 데이터만 썼습니다. 하지만 이는 데이터 양이 너무 적고 (3 만 개 정도), 복잡한 사고 과정을 가르치기엔 부족했습니다.

2. 해결책: "100 만 개의 문제집"을 만드는 공장 (Long Grounded Thoughts)

이 연구팀은 AI 가 스스로 100 만 개가 넘는 고난도 시각 문제를 만들어 학습하게 하는 공장을 지었습니다. 이 공장은 두 단계로 이루어져 있습니다.

1 단계: "상자 속 보물 찾기" (다양한 문제 만들기)

  • 비유: imagine 한 상자 (이미지) 가 있습니다. 기존 방식은 상자 전체를 설명하는 글 (캡션) 만 보고 "상자에 뭐가 있을까?"라고 물었습니다. 하지만 AI 는 항상 상자에서 가장 눈에 띄는 것만 골라 같은 질문만 반복했습니다.
  • 이 연구의 방법: 연구팀은 상자 속 각각의 물건 (사과, 인형, 책상 등) 에 정확한 위치 좌표를 붙여주었습니다. 그리고 AI 에게 "이 인형 옆에 있는 파란 물건은 뭐지?"처럼 구체적인 물건을 겨냥한 질문을 만들게 했습니다.
  • 효과: 이렇게 하면 AI 는 상자 전체가 아니라 세부적인 부분까지 꼼꼼히 보게 되어, 훨씬 다양하고 풍부한 문제를 만들 수 있게 됩니다.

2 단계: "퍼즐 조각을 이어 붙이기" (문제 어렵게 만들기)

  • 비유: 1 단계에서 만든 쉬운 문제들 (예: "인형은 파란색이야", "상자는 오른쪽에 있어") 을 따로따로 풀게 하면 AI 는 금방 답을 맞춥니다. 하지만 진짜 지능은 여러 단계를 거쳐 답을 찾는 것입니다.
  • 이 연구의 방법: AI 가 만든 쉬운 문제들을 하나의 거대한 퍼즐로 합칩니다. "인형이 파란색이고, 그 인형이 상자에 있는데, 그 상자가 창문 왼쪽에 있다면?"처럼 여러 정보를 조합해서 답을 찾아야 하는 복잡한 문제를 만듭니다.
  • 효과: AI 는 단순히 답을 외우는 게 아니라, 논리를 펼쳐가며 (추론) 답을 찾아가는 법을 배우게 됩니다.

3. 핵심 기술: "생각의 과정"을 가르치는 것 (CoT)

이 공장에서는 단순히 "정답"만 주는 게 아니라, **정답에 도달하기까지의 '생각 과정' (추론)**을 함께 가르칩니다.

  • 비유: 수학 문제를 풀 때, 답만 적어주는 게 아니라 **"먼저 A 를 계산하고, 그다음 B 를 확인하고, 아! 실수했네, 다시 생각해보자"**라고 혼잣말 (Self-talk) 을 하며 고민하는 과정을 보여줍니다.
  • 결과: AI 는 이 과정을 통해 실수를 발견하고 수정하는 능력을 키웁니다. 마치 아이가 문제를 풀다가 "아, 내가 착각했네"라고 스스로 깨닫는 것과 같습니다.

4. 놀라운 성과: "눈으로만 배웠는데, 귀와 입도 좋아졌다"

이 공장 (데이터) 으로 학습한 AI 는 놀라운 능력을 보여줍니다.

  1. 시각 능력: 이미지 기반 벤치마크에서 기존 오픈소스 모델들을 압도하고, 유료 모델들과도 대등한 성적을 냈습니다.
  2. 전환 능력 (Transfer Learning):
    • 텍스트: 이미지를 전혀 보지 않은 순수 텍스트 문제 (MMLU-Pro) 도 훨씬 잘 풀었습니다. (논리력이 텍스트에도 적용됨)
    • 소리: 음악이나 소리를 분석하는 능력도 향상되었습니다. (시각적 논리가 청각적 논리로도 확장됨)
    • 로봇: 로봇이 환경을 보고 행동하는 구체적 질문에도 큰 향상을 보였습니다.

5. 결론: "스스로 생각하게 만드는 마법"

이 연구는 **"AI 에게 정답을 알려주는 것보다, 스스로 고민하고 추론하는 과정을 100 만 번 연습시키는 것"**이 더 중요하다는 것을 증명했습니다.

  • 기존 방식: 사람이 일일이 가르침 (비효율적, 데이터 부족).
  • 이 연구: AI 가 스스로 복잡한 문제를 만들고, 스스로 고민하며, 스스로 고쳐가는 스스로 학습하는 생태계를 구축함.

이제 AI 는 단순히 "보는 것"을 넘어, 보고, 생각하고, 실수하고, 다시 생각하는 진정한 '지능'을 갖게 된 것입니다. 마치 눈만 뜨고 있던 아이가, 스스로 문제를 풀며 논리력을 키워 대학에 가는 과정과 비슷합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →