Each language version is independently generated for its own context, not a direct translation.

THINKMORPH: 그림과 글이 함께 생각하는 새로운 AI

이 논문은 **'ThinkMorph(씽크모프)'**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 기존의 AI 가 가진 한계를 넘어서, **글로 생각하는 것 (Text)**과 **그림을 그려가며 생각하는 것 (Image)**을 자연스럽게 섞어서 문제를 해결하는 능력을 보여줍니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 왜 이 연구가 필요한가요? (기존 AI 의 문제)

기존의 Multimodal(다중 모드) AI 들은 주로 글로만 생각하거나, 그림을 보고 답만 맞추는 수준이었습니다.

비유: imagine 하세요. 어떤 사람이 복잡한 미로 (미로 찾기) 를 풀려고 합니다.
- 기존 AI: "왼쪽으로 가세요, 그다음 오른쪽으로 가세요"라고 글로만 설명합니다. 하지만 미로가 너무 복잡하면 글만으로는 길을 잃기 쉽습니다.
- 다른 접근법: 누군가는 그림을 그리며 생각할 수 있습니다. "여기에 빨간 선을 그어서 길을 표시하면 되겠네"라고 생각하며 그림을 그립니다.

지금까지의 AI 는 이 두 가지 방식을 따로따로 사용하거나, 그림을 그릴 때 외부 도구를 써야 했습니다. 하지만 ThinkMorph는 글과 그림을 오가며 "생각 - 그림 - 생각 - 그림"을 반복하는 인간과 같은 사고 방식을 배웠습니다.

2. ThinkMorph 는 어떻게 작동하나요? (핵심 아이디어)

ThinkMorph 는 약 24,000 개의 **'고퀄리티 사고 과정 데이터'**로 훈련되었습니다. 이 데이터는 AI 가 문제를 풀 때 글로 설명하고, 그 설명을 바탕으로 그림을 수정하거나 그리는 과정을 담고 있습니다.

비유: "스케치북을 들고 있는 탐정"
ThinkMorph 는 사건을 해결할 때 다음과 같이 행동합니다.
1. 글로 생각: "범인은 키가 크고 빨간 모자를 썼어." (텍스트)
2. 그림으로 확인: "그럼 빨간 모자를 쓴 사람을 찾아서 확대해 보자." (그림 생성/수정)
3. 다시 글로 생각: "아, 이 모자는 범인이 맞네. 하지만 옷 색깔이 다르군." (텍스트)
4. 그림으로 다시 확인: "옷 색깔을 다시 확인하기 위해 해당 부분을 잘라내서 자세히 봐야겠다." (그림 편집)

이처럼 글과 그림이 서로를 보완하며 문제를 해결해 나갑니다.

3. 이 모델이 보여준 놀라운 능력 (발현된 특성)

이 모델은 단순히 점수가 높아진 것을 넘어, 훈련받지 않은 새로운 능력을 스스로 터득했습니다. 이를 '발현된 특성 (Emergent Properties)'이라고 합니다.

① 훈련받지 않은 그림 그리기 (Unseen Visual Manipulations)

상황: 훈련 데이터에는 '확대 (Zoom-in)'나 '색칠하기' 같은 작업이 없었습니다.
결과: 하지만 복잡한 문제를 풀 때, AI 가 스스로 **"이 부분을 확대해서 자세히 봐야겠다"**라고 생각하며 확대된 그림을 생성하거나, 경쟁자를 가리는 그림을 지우는 등 훈련받지 않은 작업을 스스로 해냈습니다.
비유: 요리 레시피를 배우지 않았는데, 손님이 "이 음식이 너무 뜨겁다"라고 하면 스스로 "얼음 조각을 추가해서 식혀보자"라고 생각하며 행동을 취하는 것과 같습니다.

② 상황에 맞춰 생각 방식 바꾸기 (Autonomous Mode Switching)

상황: 모든 문제를 그림으로 풀어야 할까요? 아니면 글로만 풀어도 될까요?
결과: ThinkMorph 는 문제의 난이도를 보고 스스로 결정합니다.
- 복잡한 미로 찾기: 그림을 그리며 꼼꼼히 길을 찾습니다.
- 간단한 질문 ("이 새는 왼쪽을 보고 있나요?"): 그림을 그릴 필요 없이 글로만 빠르게 답합니다.
비유: 공을 던질 때는 손을 쓰지만, 책을 읽을 때는 눈만 쓰는 것처럼, 상황에 따라 가장 효율적인 도구 (글 vs 그림) 를 선택하는 지능을 가졌습니다.

③ 더 많은 시도, 더 좋은 결과 (Test-Time Scaling)

상황: 같은 문제를 여러 번 시도해 볼 때, 다양한 방식으로 접근하면 더 잘 풀릴까요?
결과: ThinkMorph 는 글만 쓰는 방식이나 그림만 쓰는 방식보다, 글과 그림을 섞어서 여러 번 시도할 때 훨씬 더 정확한 답을 냈습니다.
비유: 미로를 풀 때, "왼쪽만 가보자" (글), "오른쪽만 가보자" (그림) 로 한 번만 시도하는 것보다, "왼쪽 가다가 막히면 그림으로 경로를 그려보고 다시 글로 생각해보자"라고 다양하게 시도할수록 정답에 도달할 확률이 훨씬 높아진다는 뜻입니다.

4. 실제 성능은 어떨까요?

ThinkMorph 는 70 억 개의 파라미터 (매개변수) 만 가진 비교적 작은 모델임에도 불구하고, 수십 배 더 큰 거대 AI 들 (GPT-4o, Gemini 등) 과 경쟁하거나 심지어 이기기도 했습니다. 특히 **공간 추론 (미로 찾기, 퍼즐 맞추기)**이나 차트 분석 같은 시각적 사고가 필요한 분야에서 압도적인 성과를 보였습니다.

5. 결론: 왜 이것이 중요한가요?

이 연구는 **"AI 가 단순히 답을 맞추는 것을 넘어, 인간처럼 '그리면서 생각하고, 생각하며 그리는' 과정을 통해 지능을 발전시킬 수 있다"**는 것을 증명했습니다.

ThinkMorph 는 AI 가 단순한 계산기가 아니라, 스케치북을 들고 문제를 해결하는 창의적인 파트너로 진화할 수 있는 가능성을 보여줍니다. 이는 앞으로 더 똑똑하고 유연한 AI 를 만드는 중요한 발판이 될 것입니다.

한 줄 요약:
ThinkMorph 는 **글로 설명하고 그림으로 확인하는 '생각의 춤'**을 추며, 훈련받지 않은 상황에서도 스스로 그림을 고치고 상황에 맞춰 생각 방식을 바꾸는 진짜 지능을 보여준 새로운 AI 입니다.

Each language version is independently generated for its own context, not a direct translation.

ThinkMorph: 멀티모달 인터리브드 체인-오브-생각 추론에서의 등장적 속성 (Technical Summary)

이 논문은 ThinkMorph라는 새로운 통합 멀티모달 모델을 제안하며, 언어와 비전을 상호 보완적으로 결합한 인터리브드 체인-오브-생각 (Interleaved Chain-of-Thought, CoT) 추론의 중요성과 효과를 규명합니다. 기존 연구들이 텍스트 기반 추론에 치중하거나 외부 도구에 의존했던 한계를 넘어, 텍스트와 이미지가 서로를 보완하며 추론을 진전시키는 새로운 패러다임을 제시합니다.

1. 문제 정의 (Problem)

현재 멀티모달 추론 (Multimodal Reasoning) 은 언어와 비전의 반복적인 조정이 필요하지만, 이를 효과적으로 수행하는 '의미 있는 인터리브드 추론'의 정의와 구현은 불분명합니다.

기존 접근법의 한계:
- 텍스트 중심 CoT: 텍스트만으로는 이미지 조작이나 공간적 추론이 필요한 문제 (예: 퍼즐 조립, 미로 찾기) 에서 한계가 명확합니다.
- 도구 기반 접근: 외부 크롭 도구나 스케치 모델에 의존하는 방식은 추론 과정을 간접적이고 취약하게 만듭니다.
- 동형 (Isomorphic) 표현의 오류: 기존 통합 모델들은 생성된 이미지와 텍스트가 단순히 1:1 대응 (동형) 되는 수준에 그쳐, 두 모달리티가 상호 진전 (Mutual Advancement) 하는 진정한 상호작용을 보여주지 못했습니다.
핵심 가설: 텍스트와 이미지는 서로를 대체하는 것이 아니라 상호 보완적 (Complementary) 인 모달리티로 작용해야 하며, 이를 통해 추론이 진전되어야 합니다.

2. 방법론 (Methodology)

2.1 ThinkMorph 모델 및 데이터 구축

모델 아키텍처: ThinkMorph 는 베이스 모델인 Bagel-7B를 기반으로 미세 조정 (Fine-tuning) 된 통합 멀티모달 모델입니다. 텍스트 토큰과 이미지 토큰을 번갈아 생성할 수 있는 인터리브드 추론 구조를 가집니다.
데이터셋 (ThinkMorph Traces): 약 24,000 개의 고품질 인터리브드 추론 데이터를 구축했습니다. 이는 다음과 같은 4 가지 과제를 포함하며, 각 과제는 텍스트와 이미지가 서로 다른 역할을 수행하도록 설계되었습니다.
1. Jigsaw Assembly (퍼즐 조립): 조각의 텍스트 설명 $\rightarrow$ 재배열된 이미지 시각화 $\rightarrow$ 최종 조립 검증.
2. Spatial Navigation (공간 탐색): 미로의 텍스트적 추상화 $\rightarrow$ 경로 시각화 (화살표/선) $\rightarrow$ 이동 순서 텍스트화.
3. Visual Search (시각 검색): 관심 영역 텍스트 가설 $\rightarrow$ 바운딩 박스 그리기 $\rightarrow$ 객체 속성 확인.
4. Chart Refocus (차트 재초점): 관련 데이터 요소 식별 $\rightarrow$ 차트 하이라이트 $\rightarrow$ 값 추출 및 계산.
학습 목표: 텍스트 토큰에 대한 음의 로그 가능도 (NLL) 손실과 이미지 토큰에 대한 평균 제곱 오차 (MSE) 손실을 동시에 최적화하여 두 모달리티의 조화를 유도합니다.

3. 주요 기여 및 발견 (Key Contributions & Emergent Properties)

ThinkMorph 는 단순한 성능 향상을 넘어, 훈련 데이터에 명시적으로 존재하지 않았던 3 가지 등장적 속성 (Emergent Properties) 을 보여줍니다.

1) 보이지 않는 시각적 조작 (Unseen Visual Manipulations)

내용: 훈련 데이터에 없던 새로운 시각적 조작 (줌인, 인페인팅, 모션 예측, 원근 변환 등) 을 추론 과정에서 능동적으로 생성합니다.
의미: 모델이 추론을 위해 시각적 조작을 '도구'처럼 활용하는 능력을 습득했음을 의미합니다. 예를 들어, 색상을 구별하기 위해 자동으로 이미지를 확대 (Zoom-in) 하거나, 보이지 않는 부분을 추론하여 채워 넣는 (Inpainting) 행동을 보입니다.

2) 자율적 모드 전환 (Autonomous Mode Switching)

내용: 오직 인터리브드 데이터로만 훈련되었음에도 불구하고, 모델은 과제의 복잡도에 따라 인터리브드 모드와 텍스트 전용 모드 사이를 자율적으로 전환합니다.
효율성: 시각적 정보가 불필요한 단순한 문제에서는 텍스트만으로 추론하여 토큰 사용량을 약 75% 절감하면서도 정확도를 유지하거나 향상시킵니다. 이는 모델이 언제 어떤 모달리티가 필요한지 판단하는 적응적 전략을 내재화했음을 보여줍니다.

3) 다양화된 사고를 통한 테스트 시간 확장 (Better Test-time Scaling via Diversified Thoughts)

내용: 테스트 시 여러 개의 추론 경로 (Best-of-N) 를 샘플링할 때, 인터리브드 추론은 단일 모달리티 (텍스트만 또는 이미지만) 에 비해 더 넓은 해답 공간을 탐색하여 성능이 지속적으로 향상됩니다.
결과: 특히 BLINK-Jigsaw 와 같은 복잡한 과목에서 N=8 일 때 텍스트 기반 추론 대비 8% 이상의 추가적인 정확도 향상을 보였습니다. 이는 멀티모달 추론 경로가 서로 보완적인 부분집합의 문제를 해결하여 전체적인 성공 확률을 높인다는 것을 시사합니다.

4. 실험 결과 (Results)

ThinkMorph 는 다양한 벤치마크에서 기존 모델들을 압도하는 성능을 입증했습니다.

베이스 모델 대비 향상: 비전 중심 벤치마크에서 베이스 모델 (Bagel-7B) 대비 평균 34.74% 의 큰 성능 향상을 기록했습니다.
- Spatial Navigation: 85.84% 향상 (0.83% $\rightarrow$ 86.67%)
- Jigsaw Assembly: 38.75% 향상
대규모/상용 모델과의 비교:
- InternVL3.5-38B (38B 파라미터) 를 능가하는 성능을 보였습니다 (예: SAT 벤치마크에서 52.67% vs 49.33%).
- Gemini 2.5 Flash와 MMVP 벤치마크에서 동급의 성능 (80.33%) 을 보였습니다.
- GPT-4o보다 SAT 벤치마크에서 24.67% 높은 성능을 기록했습니다.
범용성: 훈련 데이터와 다른 도메인 (Out-of-Domain) 으로도 강력하게 일반화되어, VStar, BLINK, MMVP 등 다양한 벤치마크에서 최상위 성능을 유지했습니다.

5. 의의 및 결론 (Significance)

이 논문은 멀티모달 AI 의 발전에 다음과 같은 중요한 시사점을 제공합니다:

상호 보완적 추론의 증명: 텍스트와 이미지는 단순히 병렬로 존재하는 것이 아니라, 서로를 보완하며 추론의 질을 높이는 '엔진' 역할을 할 수 있음을 입증했습니다.
통합 모델의 진화: 생성 (이미지 생성) 과 이해 (텍스트 추론) 가 분리되지 않고 통합된 인터리브드 프레임워크 내에서 상호 강화될 때, 모델은 훈련 데이터에 명시되지 않은 고차원적인 지능 (자율적 모드 전환, 새로운 조작 능력) 을 발현할 수 있습니다.
테스트 시간 확장 전략: 멀티모달 추론 경로의 다양성이 테스트 시간 계산 (Test-time Compute) 확장 시 성능 향상의 핵심 요소임을 보여주었습니다.

결론적으로, ThinkMorph 는 "생각하고 스케치하기 (Think-and-Sketch)"라는 인간의 문제 해결 방식을 모방하여, 멀티모달 모델이 더 강력하고 유연하며 인간과 유사한 추론 능력을 갖추는 새로운 방향성을 제시합니다.

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning