Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

이 논문은 고비용과 훈련 부담을 줄이기 위해 거시적 계획과 미시적 실행의 2 단계 추론 패러다임을 도입한 단일 통합 모델 'Uni-CoT'를 제안하여 텍스트와 비전을 아우르는 일관된 다중 모달 추론을 가능하게 하고, WISE, RISE, KRIS 등 다양한 벤치마크에서 최첨단 성능을 입증했습니다.

Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "생각이 너무 복잡해서 머리가 터질 뻔했다"

기존의 인공지능 (LLM) 은 글로 된 문제를 풀 때 "단계별로 생각해보자"는 방식을 쓰면 아주 잘합니다. 하지만 이미지가 섞인 문제를 풀려고 하면 큰 문제가 생깁니다.

  • 비유: imagine 하세요. 요리사가 레시피 (글) 를 읽으면서 동시에 요리를 하고, 그 요리를 찍은 사진을 보고 다시 레시피를 수정해야 한다고 가정해 봅시다.
  • 기존 방식의 한계: 인공지능은 매번 "글을 읽고, 그림을 보고, 다시 글을 쓰고, 다시 그림을 그리는" 과정을 전체 역사 (과거의 모든 단계) 를 다 기억하며 반복해야 합니다. 마치 거대한 도서관에서 모든 책을 한 권씩 다 꺼내서 비교해 보며 요리하는 것처럼, 계산량이 너무 많아져서 속도가 느리고 비용이 엄청나게 비싸집니다.

2. 해결책: "Uni-CoT (유니 - 코트)"의 두 가지 전략

이 논문은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했습니다.

전략 1: "대장 (Macro) 과 부하 (Micro) 의 분업"

복잡한 일을 한 번에 다 하려 하지 않고, 큰 그림작은 작업으로 나눕니다.

  • Macro (대장): "오늘 할 일을 정리해라."
    • 전체적인 계획을 세우고, 큰 과제를 작은 조각 (서브태스크) 으로 나눕니다.
    • 비유: 건축 현장의 현장 소장입니다. 소장은 "먼저 기초를 다지고, 그다음 1 층을 짓고, 마지막으로 지붕을 올린다"는 큰 계획만 세웁니다. 벽돌 하나하나를 어떻게 쌓을지는 생각하지 않습니다.
  • Micro (부하): "내 할 일만 집중해라."
    • 소장이 준 작은 과제를 하나씩 해결합니다. 이때는 과거의 모든 역사를 기억할 필요 없이, '지금 이 단계'와 '직전 단계'만 보면 됩니다.
    • 비유: 벽돌공입니다. 벽돌공은 "지금 이 벽돌을 쌓아라"는 지시만 받으면 됩니다. "어제 1 층을 어떻게 쌓았는지"까지 기억할 필요가 없습니다.
  • 효과: 이렇게 나누면 인공지능이 기억해야 할 정보가 급격히 줄어들어, 속도는 빨라지고 비용은 획기적으로 줄어듭니다.

전략 2: "스스로 반성하기 (Self-Reflection)"

작업 중 실수가 나면, 바로잡는 과정을 거칩니다.

  • 비유: 그림을 그리다가 "어? 이 색이 너무 어두운데?"라고 생각하면, 그냥 지우지 않고 "왜 어두운지 분석하고, 어떻게 고칠지 생각한 뒤" 다시 그리는 것입니다.
  • Uni-CoT 의 방식: 인공지능이 그림을 그렸을 때, "이게 맞나?"라고 스스로 질문합니다. (예: "불꽃이 꺼져야 하는데 아직 켜져 있네?") 그리고 그 이유를 글로 설명한 뒤, 그림을 수정합니다. 이 과정을 반복하다가 만족할 때까지 고칩니다.

3. 실제 성과: "어려운 퍼즐도 척척!"

이 시스템을 테스트해 보니 놀라운 결과가 나왔습니다.

  • 이미지 생성: "피카소 스타일의 가난한 남자" 같은 복잡한 지시를 받으면, 단순히 그림만 그리는 게 아니라 "피카소 스타일이란 게 뭐지? 가난함을 어떻게 표현하지?"라고 단계별로 생각하며 더 자연스러운 그림을 만듭니다.
  • 퍼즐 맞추기: 조각난 퍼즐 조각을 원래대로 맞추는 작업에서도, "이 조각은 어디에 있어야 할까?"라고 단계별로 추론하며 정답을 찾아냅니다.
  • 결과: 기존 모델들보다 훨씬 빠르고 정확하게, 그리고 실수할 때 스스로 고쳐가며 더 좋은 결과를 냈습니다.

4. 요약: 왜 이것이 중요한가요?

이 논문은 인공지능이 글과 그림을 동시에 생각하며 복잡한 일을 해결하는 능력을 획기적으로 발전시켰습니다.

  • 기존: "모든 것을 다 기억하며 한 번에 해결하려다 지쳐버림."
  • Uni-CoT: "큰 계획 (소장) 과 작은 실행 (벽돌공) 으로 나누고, 실수하면 스스로 반성하며 고침."

이 기술은 앞으로 인공지능이 의료 진단, 복잡한 공학 설계, 창의적인 예술 작업 등 훨씬 더 어렵고 섬세한 일들을 사람처럼 자연스럽게 수행하는 데 큰 발판이 될 것입니다.

한 줄 요약:

"인공지능에게 '거창한 계획'과 '작은 실수 교정'을 가르쳐서, 복잡한 그림과 글 문제를 사람처럼 빠르고 정확하게 해결하게 만든 기술입니다."