Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "생각이 너무 복잡해서 머리가 터질 뻔했다"

기존의 인공지능 (LLM) 은 글로 된 문제를 풀 때 "단계별로 생각해보자"는 방식을 쓰면 아주 잘합니다. 하지만 이미지가 섞인 문제를 풀려고 하면 큰 문제가 생깁니다.

비유: imagine 하세요. 요리사가 레시피 (글) 를 읽으면서 동시에 요리를 하고, 그 요리를 찍은 사진을 보고 다시 레시피를 수정해야 한다고 가정해 봅시다.
기존 방식의 한계: 인공지능은 매번 "글을 읽고, 그림을 보고, 다시 글을 쓰고, 다시 그림을 그리는" 과정을 전체 역사 (과거의 모든 단계) 를 다 기억하며 반복해야 합니다. 마치 거대한 도서관에서 모든 책을 한 권씩 다 꺼내서 비교해 보며 요리하는 것처럼, 계산량이 너무 많아져서 속도가 느리고 비용이 엄청나게 비싸집니다.

2. 해결책: "Uni-CoT (유니 - 코트)"의 두 가지 전략

이 논문은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했습니다.

전략 1: "대장 (Macro) 과 부하 (Micro) 의 분업"

복잡한 일을 한 번에 다 하려 하지 않고, 큰 그림과 작은 작업으로 나눕니다.

Macro (대장): "오늘 할 일을 정리해라."
- 전체적인 계획을 세우고, 큰 과제를 작은 조각 (서브태스크) 으로 나눕니다.
- 비유: 건축 현장의 현장 소장입니다. 소장은 "먼저 기초를 다지고, 그다음 1 층을 짓고, 마지막으로 지붕을 올린다"는 큰 계획만 세웁니다. 벽돌 하나하나를 어떻게 쌓을지는 생각하지 않습니다.
Micro (부하): "내 할 일만 집중해라."
- 소장이 준 작은 과제를 하나씩 해결합니다. 이때는 과거의 모든 역사를 기억할 필요 없이, '지금 이 단계'와 '직전 단계'만 보면 됩니다.
- 비유: 벽돌공입니다. 벽돌공은 "지금 이 벽돌을 쌓아라"는 지시만 받으면 됩니다. "어제 1 층을 어떻게 쌓았는지"까지 기억할 필요가 없습니다.
효과: 이렇게 나누면 인공지능이 기억해야 할 정보가 급격히 줄어들어, 속도는 빨라지고 비용은 획기적으로 줄어듭니다.

전략 2: "스스로 반성하기 (Self-Reflection)"

작업 중 실수가 나면, 바로잡는 과정을 거칩니다.

비유: 그림을 그리다가 "어? 이 색이 너무 어두운데?"라고 생각하면, 그냥 지우지 않고 "왜 어두운지 분석하고, 어떻게 고칠지 생각한 뒤" 다시 그리는 것입니다.
Uni-CoT 의 방식: 인공지능이 그림을 그렸을 때, "이게 맞나?"라고 스스로 질문합니다. (예: "불꽃이 꺼져야 하는데 아직 켜져 있네?") 그리고 그 이유를 글로 설명한 뒤, 그림을 수정합니다. 이 과정을 반복하다가 만족할 때까지 고칩니다.

3. 실제 성과: "어려운 퍼즐도 척척!"

이 시스템을 테스트해 보니 놀라운 결과가 나왔습니다.

이미지 생성: "피카소 스타일의 가난한 남자" 같은 복잡한 지시를 받으면, 단순히 그림만 그리는 게 아니라 "피카소 스타일이란 게 뭐지? 가난함을 어떻게 표현하지?"라고 단계별로 생각하며 더 자연스러운 그림을 만듭니다.
퍼즐 맞추기: 조각난 퍼즐 조각을 원래대로 맞추는 작업에서도, "이 조각은 어디에 있어야 할까?"라고 단계별로 추론하며 정답을 찾아냅니다.
결과: 기존 모델들보다 훨씬 빠르고 정확하게, 그리고 실수할 때 스스로 고쳐가며 더 좋은 결과를 냈습니다.

4. 요약: 왜 이것이 중요한가요?

이 논문은 인공지능이 글과 그림을 동시에 생각하며 복잡한 일을 해결하는 능력을 획기적으로 발전시켰습니다.

기존: "모든 것을 다 기억하며 한 번에 해결하려다 지쳐버림."
Uni-CoT: "큰 계획 (소장) 과 작은 실행 (벽돌공) 으로 나누고, 실수하면 스스로 반성하며 고침."

이 기술은 앞으로 인공지능이 의료 진단, 복잡한 공학 설계, 창의적인 예술 작업 등 훨씬 더 어렵고 섬세한 일들을 사람처럼 자연스럽게 수행하는 데 큰 발판이 될 것입니다.

한 줄 요약:

"인공지능에게 '거창한 계획'과 '작은 실수 교정'을 가르쳐서, 복잡한 그림과 글 문제를 사람처럼 빠르고 정확하게 해결하게 만든 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: UNI-COT: 텍스트와 비전을 아우르는 통합된 체인 오브 씽킹 (CoT) 추론을 위한 연구

이 논문은 ICLR 2026 에 발표된 것으로, 대규모 언어 모델 (LLM) 의 추론 능력을 다중 모달 (Multi-modal) 영역으로 확장하기 위해 제안된 Uni-CoT(Unified Chain-of-Thought) 프레임워크에 대해 다룹니다. 기존 CoT 가 텍스트 기반 추론에서는 효과적이었으나, 이미지 생성 및 이해와 같은 비전 - 언어 작업에서는 시각적 상태 전환 (Visual State Transitions) 을 모델링하는 데 한계가 있었음을 지적하고 이를 해결하는 새로운 아키텍처를 제시합니다.

1. 문제 제기 (Problem)

기존의 다중 모달 LLM(MLLM) 은 복잡한 추론 작업을 수행할 때 다음과 같은 근본적인 한계에 직면해 있습니다:

시각적 상태 전환의 모델링 부재: 인간은 추론 과정에서 지도 업데이트나 물체 이동과 같이 시각적 상태의 변화를 논리적으로 통합합니다. 반면, 기존 모델들은 텍스트만으로 이를 근사하려 하거나, 프로그래밍적 조작 (자르기, 그리기 등) 으로 국소적인 변화만 다룰 뿐, 퍼즐 해결이나 내비게이션과 같은 전역적 구조 변화를 포착하지 못합니다.
계산 복잡도 및 훈련 불안정성: 텍스트와 이미지를 번갈아 생성하는 다중 모달 CoT 는 토큰 길이가 기하급수적으로 증가하여 (텍스트 300 토큰 대비 이미지 생성/인식 시 약 9,000 토큰 추가) 추론 단계당 계산 비용이 매우 큽니다. 또한, 긴 시퀀스 생성은 장기 의존성 모델링을 어렵게 하고 훈련을 불안정하게 만듭니다.
비연속적 추론 흐름: MLLM 과 이미지 생성기를 단순히 결합한 기존 접근법들은 추론 흐름이 단편화되고 시각적 전환이 일관성 없게 이어지는 문제가 있습니다.

2. 방법론 (Methodology)

Uni-CoT 는 BAGEL(이미지 이해와 생성을 모두 지원하는 통합 모델) 을 기반으로 하며, 인간 인지의 계층적 구조에서 영감을 받아 이중 레벨 (Two-level) 추론 패러다임을 도입했습니다.

A. 계층적 추론 아키텍처 (Macro-Micro Hierarchical CoT)

복잡한 추론 경로를 모듈화된 블록으로 분해하여 계산 복잡도를 $O(T^2)$ 에서 $O(T)$ 수준으로 줄입니다.

매크로 레벨 (Macro-Level CoT):
- 플래너 (Planner): 전체 작업을 고수준의 하위 목표 (Subgoals) 로 분해합니다.
- 서머라이저 (Summarizer): 모든 하위 작업의 결과를 통합하여 최종 답을 도출합니다.
- 특징: 저수준의 실행 세부사항을 추상화하여 전체적인 전략을 수립하며, 매크로 어텐션 마스크를 통해 불필요한 히스토리 토큰을 가려 계산 부하를 줄입니다.
마이크로 레벨 (Micro-Level CoT):
- 마이크로 오퍼레이터 (Micro Operator): 각 하위 목표를 독립적으로 실행합니다.
- MDP 기반 자기 성찰 (Self-Reflection): 각 하위 작업은 마르코프 결정 과정 (MDP) 으로 모델링됩니다. 모델은 초기 시도 후 결과를 평가 (Evaluation) 하고, 필요시 텍스트/이미지 편집을 통해 수정 (Refinement) 하는 폐쇄 루프 (Closed-loop) 과정을 거칩니다.
- 특징: 이전 상태와 현재 지시문에만 의존하도록 마이크로 어텐션 마스크를 적용하여 국소적 의존성만 유지함으로써 계산 효율성을 극대화합니다.

B. 훈련 패러다임 (Training Paradigm)

안정적이고 효율적인 훈련을 위해 두 가지 학습 단계를 분리합니다:

매크로 학습: 텍스트와 이미지의 교차 생성을 위한 전역 계획 및 최종 합성을 학습 (교차 엔트로피 및 MSE 손실 사용).
마이크로 학습: 하위 작업 실행 및 자기 성찰 과정을 학습하기 위해 4 가지 보조 작업 (텍스트 행동 생성, 이미지 행동 생성, 다음 상태 예측, 보상 추정) 을 도입하여 MDP 기반의 자기 반성 능력을 강화합니다.

3. 주요 기여 (Key Contributions)

통합된 다중 모달 CoT 프레임워크: 텍스트 논리와 시각적 상태 전환을 하나의 모델 내에서 일관되게 결합하여 복잡한 다중 모달 추론을 가능하게 함.
계산 복잡도 감소: 계층적 분해와 MDP 기반의 국소적 상태 전이를 통해 다중 모달 추론의 계산 복잡도를 2 차 (Quadratic) 에서 선형 (Linear) 수준으로 획기적으로 낮춤.
안정적인 훈련 전략: 보조 작업을 통한 자기 성찰 학습과 계층적 훈련 방식을 도입하여 긴 시퀀스 생성 시 발생하는 훈련 불안정성을 해결.
범용성: 이미지 생성 (Text-to-Image) 과 이미지 이해 (Visual Reasoning) 모두에서 SOTA 성능 달성.

4. 실험 결과 (Results)

이미지 생성 (GenEval, WISE):
- GenEval: 객체 중심 텍스트 - 이미지 정합성 평가에서 베이스 모델 (Bagel) 보다 향상된 성능을 보임.
- WISE (Reasoning-driven): 추론 기반 이미지 생성 벤치마크에서 오픈소스 및 상용 모델 (GPT-4o 등) 을 능가하는 SOTA 성능을 기록. 특히 자기 성찰 메커니즘을 통해 초기 오류를 수정하는 능력이 뛰어남.
이미지 이해 (MME, MMMU, Jigsaw-R1):
- 일반 다중 모달 벤치마크에서 베이스 모델과 유사하거나 약간 우위의 성능을 보이며 세계 지식을 유지함.
- Jigsaw-R1 (퍼즐 해결): 구조화된 시각적 추론이 필요한 작업에서 오픈소스 모델들보다 압도적으로 높은 성능을 보임.
복잡도 분석:
- 추론 단계가 증가함에 따라 기존 방법 (Uni-CoT Raw) 은 토큰 상호작용 수가 2 차적으로 증가하는 반면, Uni-CoT 는 거의 선형적으로 증가하여 10 단계 추론 시 약 11 배의 효율성 향상을 보임.
- 훈련 수렴 속도가 2 배 이상 빠르며 (6,000 스텝 vs 12,000 스텝), 더 낮은 손실 값을 달성.

5. 의의 및 결론 (Significance)

Uni-CoT 는 다중 모달 AI 가 복잡한 추론 작업을 수행할 때 직면한 계산적 비효율성과 추론 일관성 부족이라는 두 가지 핵심 과제를 동시에 해결했습니다.

효율성: 긴 추론 체인을 모듈화하고 국소화함으로써 고비용의 다중 모달 추론을 실용적인 수준으로 낮췄습니다.
해석 가능성: 매크로 계획과 마이크로 자기 성찰 과정을 통해 모델이 어떻게 시각적 상태를 변화시키며 결론에 도달하는지 명확한 추론 경로를 제공합니다.
미래 전망: 이 프레임워크는 로봇 공학, 과학적 시뮬레이션, 복잡한 이미지 편집 등 시각적 상태 변화가 필수적인 다양한 현실 세계 응용 분야로 확장될 수 있는 강력한 기반을 제공합니다.

결론적으로, Uni-CoT 는 텍스트와 비전을 통합하여 인간과 유사한 계층적 추론 능력을 갖춘 차세대 다중 모달 모델의 새로운 표준을 제시합니다.