Continuous Chain of Thought Enables Parallel Exploration and Reasoning

이 논문은 이산적 토큰 대신 연속적 토큰을 활용한 연쇄 사고 (CoT2) 를 통해 병렬 추론을 가능하게 하고, 새로운 감독 전략과 샘플링 기법을 통해 논리적 추론 성능과 효율성을 획기적으로 개선하는 이론적 근거와 알고리즘을 제시합니다.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "혼란스러운 미로 찾기"

기존의 인공지능은 문제를 풀 때 한 번에 한 가지 길만 선택합니다. 마치 미로에 들어선 사람이 "왼쪽으로 갈까, 오른쪽으로 갈까?" 고민하다가 오른쪽을 선택하면, 그 길로만 계속 걷는 것과 같습니다.

  • 문제: 만약 오른쪽 길이 막혀 있다면, 그 사람은 처음부터 다시 시작해서 왼쪽 길로 가야 합니다. (이걸 '여러 번 시도해보기'라고 합니다.)
  • 비유: 이는 한 번에 한 장의 카드만 뽑는 것과 같습니다. "이 카드가 정답일까?"를 확인하려면 카드를 다시 섞고 또 뽑아야 하므로 시간이 많이 걸립니다.

2. 새로운 방식 (CoT2): "투명한 오버레이 (겹쳐진 그림)"

이 논문이 제안하는 CoT2는 완전히 다른 접근법을 사용합니다. 인공지능이 한 번에 여러 가지 가능성을 동시에 고려하도록 만드는 것입니다.

  • 핵심 아이디어: 인공지능이 "왼쪽"과 "오른쪽" 중 하나를 딱 하나만 고르는 대신, **"왼쪽 50%, 오른쪽 50%"**처럼 두 가지 길을 동시에 걸어가게 합니다.
  • 비유:
    • 기존 방식: 미로에 들어설 때 한 장의 지도만 들고 갑니다.
    • CoT2 방식: **투명한 오버레이 (겹쳐진 유리)**를 여러 장 쌓아 올립니다. 처음에는 모든 길이 투명한 유리에 겹쳐져 보입니다. 인공지능은 이 겹쳐진 상태에서 모든 길을 동시에 탐색하다가, 마지막 순간에 가장 확실한 길 (정답) 만을 선택합니다.
    • 마치 스무고개 게임을 할 때, "빨간색일까, 파란색일까?"라고 하나만 고르는 게 아니라, "빨간색과 파란색이 섞인 보라색"이라는 개념으로 모든 가능성을 한 번에 품고 가는 것과 같습니다.

3. 왜 이것이 더 좋은가요? (세 가지 장점)

① 병렬 처리 (한 번에 여러 마리 잡기)

기존 방식은 "오른쪽 길"이 틀리면 다시 "왼쪽 길"을 찾아야 하지만, CoT2 는 한 번의 시도로 모든 길을 다 탐색합니다.

  • 비유: 100 개의 열쇠 중 정답을 찾으려 할 때, 기존 방식은 하나씩 열쇠를 꽂아보지만 (100 번 시도), CoT2 는 모든 열쇠를 동시에 꽂아보는 마법을 부립니다.

② 정보의 밀도 (작은 가방에 많은 짐)

기존 방식은 한 번에 하나의 단어 (토큰) 만 말하지만, CoT2 는 그 단어 안에 여러 가지 의미와 가능성을 담습니다.

  • 비유: 기존 방식은 편지 한 통에 한 가지 소식만 적는다면, CoT2 는 한 장의 종이에 여러 사람의 목소리가 섞인 녹음 파일을 담는 것과 같습니다. 같은 공간에 훨씬 더 많은 정보를 저장할 수 있습니다.

③ 실수 방지 (얼어붙지 않기)

기존 방식은 중간에 실수하면 그 실수가 쌓여 결국 엉뚱한 답을 내놓을 수 있습니다 (눈덩이 효과). 하지만 CoT2 는 중간에 "아, 이 길은 아닐 수도 있구나"라고 생각하면서 다른 가능성도 계속 유지하므로, 실수가 쌓이지 않고 마지막까지 유연하게 생각할 수 있습니다.

4. 실험 결과: 실제로 효과가 있을까?

저자들은 수학 문제 (Subset Sum) 와 논리 퀴즈 (ProntoQA) 같은 복잡한 문제를 풀게 했습니다.

  • 결과: CoT2 를 사용한 인공지능은 한 번의 시도로 기존 방식이 **여러 번 시도 (Pass@k)**해야만 맞출 수 있는 정답률을 달성했습니다.
  • 비유: 기존 방식이 10 번의 시도로 100 점 만점을 맞았다면, CoT2 는 단 1 번의 시도로 100 점 만점을 맞았습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

이 연구는 인공지능이 **"한 번에 하나만 선택하는 습관"**을 버리고, **"여러 가능성을 동시에 품고 생각하는 능력"**을 키우면 훨씬 더 똑똑해지고 빠르다는 것을 증명했습니다.

  • 기존: "A 가 정답일까? 아니야. 그럼 B 가 정답일까?" (시간 낭비)
  • CoT2: "A 와 B 가 섞인 상태부터 시작해서, 마지막에 가장 확실한 답을 찾아낸다." (효율성 극대화)

이 기술이 발전하면, 앞으로의 인공지능은 더 복잡한 문제를 풀 때 더 적은 계산량으로 더 정확한 답을 내놓을 수 있게 될 것입니다. 마치 한 번의 번개 치기로 모든 구름을 비추는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →