ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

이 논문은 텍스트와 이미지가 상호보완적으로 작용하는 인터리브드 체인 오브 씽킹을 학습한 ThinkMorph 모델을 제안하여, 비전 중심 벤치마크에서 큰 성능 향상을 보일 뿐만 아니라 미지의 시각 조작 능력과 적응형 추론 전환 등 다양한 emergen t 능력을 발휘함을 입증했습니다.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

THINKMORPH: 그림과 글이 함께 생각하는 새로운 AI

이 논문은 **'ThinkMorph(씽크모프)'**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 기존의 AI 가 가진 한계를 넘어서, **글로 생각하는 것 (Text)**과 **그림을 그려가며 생각하는 것 (Image)**을 자연스럽게 섞어서 문제를 해결하는 능력을 보여줍니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 왜 이 연구가 필요한가요? (기존 AI 의 문제)

기존의 Multimodal(다중 모드) AI 들은 주로 글로만 생각하거나, 그림을 보고 답만 맞추는 수준이었습니다.

  • 비유: imagine 하세요. 어떤 사람이 복잡한 미로 (미로 찾기) 를 풀려고 합니다.
    • 기존 AI: "왼쪽으로 가세요, 그다음 오른쪽으로 가세요"라고 글로만 설명합니다. 하지만 미로가 너무 복잡하면 글만으로는 길을 잃기 쉽습니다.
    • 다른 접근법: 누군가는 그림을 그리며 생각할 수 있습니다. "여기에 빨간 선을 그어서 길을 표시하면 되겠네"라고 생각하며 그림을 그립니다.

지금까지의 AI 는 이 두 가지 방식을 따로따로 사용하거나, 그림을 그릴 때 외부 도구를 써야 했습니다. 하지만 ThinkMorph글과 그림을 오가며 "생각 - 그림 - 생각 - 그림"을 반복하는 인간과 같은 사고 방식을 배웠습니다.

2. ThinkMorph 는 어떻게 작동하나요? (핵심 아이디어)

ThinkMorph 는 약 24,000 개의 **'고퀄리티 사고 과정 데이터'**로 훈련되었습니다. 이 데이터는 AI 가 문제를 풀 때 글로 설명하고, 그 설명을 바탕으로 그림을 수정하거나 그리는 과정을 담고 있습니다.

  • 비유: "스케치북을 들고 있는 탐정"
    ThinkMorph 는 사건을 해결할 때 다음과 같이 행동합니다.
    1. 글로 생각: "범인은 키가 크고 빨간 모자를 썼어." (텍스트)
    2. 그림으로 확인: "그럼 빨간 모자를 쓴 사람을 찾아서 확대해 보자." (그림 생성/수정)
    3. 다시 글로 생각: "아, 이 모자는 범인이 맞네. 하지만 옷 색깔이 다르군." (텍스트)
    4. 그림으로 다시 확인: "옷 색깔을 다시 확인하기 위해 해당 부분을 잘라내서 자세히 봐야겠다." (그림 편집)

이처럼 글과 그림이 서로를 보완하며 문제를 해결해 나갑니다.

3. 이 모델이 보여준 놀라운 능력 (발현된 특성)

이 모델은 단순히 점수가 높아진 것을 넘어, 훈련받지 않은 새로운 능력을 스스로 터득했습니다. 이를 '발현된 특성 (Emergent Properties)'이라고 합니다.

① 훈련받지 않은 그림 그리기 (Unseen Visual Manipulations)

  • 상황: 훈련 데이터에는 '확대 (Zoom-in)'나 '색칠하기' 같은 작업이 없었습니다.
  • 결과: 하지만 복잡한 문제를 풀 때, AI 가 스스로 **"이 부분을 확대해서 자세히 봐야겠다"**라고 생각하며 확대된 그림을 생성하거나, 경쟁자를 가리는 그림을 지우는 등 훈련받지 않은 작업을 스스로 해냈습니다.
  • 비유: 요리 레시피를 배우지 않았는데, 손님이 "이 음식이 너무 뜨겁다"라고 하면 스스로 "얼음 조각을 추가해서 식혀보자"라고 생각하며 행동을 취하는 것과 같습니다.

② 상황에 맞춰 생각 방식 바꾸기 (Autonomous Mode Switching)

  • 상황: 모든 문제를 그림으로 풀어야 할까요? 아니면 글로만 풀어도 될까요?
  • 결과: ThinkMorph 는 문제의 난이도를 보고 스스로 결정합니다.
    • 복잡한 미로 찾기: 그림을 그리며 꼼꼼히 길을 찾습니다.
    • 간단한 질문 ("이 새는 왼쪽을 보고 있나요?"): 그림을 그릴 필요 없이 글로만 빠르게 답합니다.
  • 비유: 공을 던질 때는 손을 쓰지만, 책을 읽을 때는 눈만 쓰는 것처럼, 상황에 따라 가장 효율적인 도구 (글 vs 그림) 를 선택하는 지능을 가졌습니다.

③ 더 많은 시도, 더 좋은 결과 (Test-Time Scaling)

  • 상황: 같은 문제를 여러 번 시도해 볼 때, 다양한 방식으로 접근하면 더 잘 풀릴까요?
  • 결과: ThinkMorph 는 글만 쓰는 방식이나 그림만 쓰는 방식보다, 글과 그림을 섞어서 여러 번 시도할 때 훨씬 더 정확한 답을 냈습니다.
  • 비유: 미로를 풀 때, "왼쪽만 가보자" (글), "오른쪽만 가보자" (그림) 로 한 번만 시도하는 것보다, "왼쪽 가다가 막히면 그림으로 경로를 그려보고 다시 글로 생각해보자"라고 다양하게 시도할수록 정답에 도달할 확률이 훨씬 높아진다는 뜻입니다.

4. 실제 성능은 어떨까요?

ThinkMorph 는 70 억 개의 파라미터 (매개변수) 만 가진 비교적 작은 모델임에도 불구하고, 수십 배 더 큰 거대 AI 들 (GPT-4o, Gemini 등) 과 경쟁하거나 심지어 이기기도 했습니다. 특히 **공간 추론 (미로 찾기, 퍼즐 맞추기)**이나 차트 분석 같은 시각적 사고가 필요한 분야에서 압도적인 성과를 보였습니다.

5. 결론: 왜 이것이 중요한가요?

이 연구는 **"AI 가 단순히 답을 맞추는 것을 넘어, 인간처럼 '그리면서 생각하고, 생각하며 그리는' 과정을 통해 지능을 발전시킬 수 있다"**는 것을 증명했습니다.

ThinkMorph 는 AI 가 단순한 계산기가 아니라, 스케치북을 들고 문제를 해결하는 창의적인 파트너로 진화할 수 있는 가능성을 보여줍니다. 이는 앞으로 더 똑똑하고 유연한 AI 를 만드는 중요한 발판이 될 것입니다.


한 줄 요약:
ThinkMorph 는 **글로 설명하고 그림으로 확인하는 '생각의 춤'**을 추며, 훈련받지 않은 상황에서도 스스로 그림을 고치고 상황에 맞춰 생각 방식을 바꾸는 진짜 지능을 보여준 새로운 AI 입니다.