Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "혼란스러운 미로 찾기"

기존의 인공지능은 문제를 풀 때 한 번에 한 가지 길만 선택합니다. 마치 미로에 들어선 사람이 "왼쪽으로 갈까, 오른쪽으로 갈까?" 고민하다가 오른쪽을 선택하면, 그 길로만 계속 걷는 것과 같습니다.

문제: 만약 오른쪽 길이 막혀 있다면, 그 사람은 처음부터 다시 시작해서 왼쪽 길로 가야 합니다. (이걸 '여러 번 시도해보기'라고 합니다.)
비유: 이는 한 번에 한 장의 카드만 뽑는 것과 같습니다. "이 카드가 정답일까?"를 확인하려면 카드를 다시 섞고 또 뽑아야 하므로 시간이 많이 걸립니다.

2. 새로운 방식 (CoT2): "투명한 오버레이 (겹쳐진 그림)"

이 논문이 제안하는 CoT2는 완전히 다른 접근법을 사용합니다. 인공지능이 한 번에 여러 가지 가능성을 동시에 고려하도록 만드는 것입니다.

핵심 아이디어: 인공지능이 "왼쪽"과 "오른쪽" 중 하나를 딱 하나만 고르는 대신, **"왼쪽 50%, 오른쪽 50%"**처럼 두 가지 길을 동시에 걸어가게 합니다.
비유:
- 기존 방식: 미로에 들어설 때 한 장의 지도만 들고 갑니다.
- CoT2 방식: **투명한 오버레이 (겹쳐진 유리)**를 여러 장 쌓아 올립니다. 처음에는 모든 길이 투명한 유리에 겹쳐져 보입니다. 인공지능은 이 겹쳐진 상태에서 모든 길을 동시에 탐색하다가, 마지막 순간에 가장 확실한 길 (정답) 만을 선택합니다.
- 마치 스무고개 게임을 할 때, "빨간색일까, 파란색일까?"라고 하나만 고르는 게 아니라, "빨간색과 파란색이 섞인 보라색"이라는 개념으로 모든 가능성을 한 번에 품고 가는 것과 같습니다.

3. 왜 이것이 더 좋은가요? (세 가지 장점)

① 병렬 처리 (한 번에 여러 마리 잡기)

기존 방식은 "오른쪽 길"이 틀리면 다시 "왼쪽 길"을 찾아야 하지만, CoT2 는 한 번의 시도로 모든 길을 다 탐색합니다.

비유: 100 개의 열쇠 중 정답을 찾으려 할 때, 기존 방식은 하나씩 열쇠를 꽂아보지만 (100 번 시도), CoT2 는 모든 열쇠를 동시에 꽂아보는 마법을 부립니다.

② 정보의 밀도 (작은 가방에 많은 짐)

기존 방식은 한 번에 하나의 단어 (토큰) 만 말하지만, CoT2 는 그 단어 안에 여러 가지 의미와 가능성을 담습니다.

비유: 기존 방식은 편지 한 통에 한 가지 소식만 적는다면, CoT2 는 한 장의 종이에 여러 사람의 목소리가 섞인 녹음 파일을 담는 것과 같습니다. 같은 공간에 훨씬 더 많은 정보를 저장할 수 있습니다.

③ 실수 방지 (얼어붙지 않기)

기존 방식은 중간에 실수하면 그 실수가 쌓여 결국 엉뚱한 답을 내놓을 수 있습니다 (눈덩이 효과). 하지만 CoT2 는 중간에 "아, 이 길은 아닐 수도 있구나"라고 생각하면서 다른 가능성도 계속 유지하므로, 실수가 쌓이지 않고 마지막까지 유연하게 생각할 수 있습니다.

4. 실험 결과: 실제로 효과가 있을까?

저자들은 수학 문제 (Subset Sum) 와 논리 퀴즈 (ProntoQA) 같은 복잡한 문제를 풀게 했습니다.

결과: CoT2 를 사용한 인공지능은 한 번의 시도로 기존 방식이 **여러 번 시도 (Pass@k)**해야만 맞출 수 있는 정답률을 달성했습니다.
비유: 기존 방식이 10 번의 시도로 100 점 만점을 맞았다면, CoT2 는 단 1 번의 시도로 100 점 만점을 맞았습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

이 연구는 인공지능이 **"한 번에 하나만 선택하는 습관"**을 버리고, **"여러 가능성을 동시에 품고 생각하는 능력"**을 키우면 훨씬 더 똑똑해지고 빠르다는 것을 증명했습니다.

기존: "A 가 정답일까? 아니야. 그럼 B 가 정답일까?" (시간 낭비)
CoT2: "A 와 B 가 섞인 상태부터 시작해서, 마지막에 가장 확실한 답을 찾아낸다." (효율성 극대화)

이 기술이 발전하면, 앞으로의 인공지능은 더 복잡한 문제를 풀 때 더 적은 계산량으로 더 정확한 답을 내놓을 수 있게 될 것입니다. 마치 한 번의 번개 치기로 모든 구름을 비추는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대 대규모 언어 모델 (LLM) 은 유한한 어휘집에서 토큰을 autoregressive(자기회귀적) 방식으로 샘플링하여 사고의 사슬 (CoT) 을 생성합니다. 이 방식에는 다음과 같은 근본적인 한계가 있습니다.

정보 밀도 부족: 각 토큰은 어휘집 크기 $v$ 에 따라 최대 $\log_2(v)$ 비트의 정보만 담을 수 있습니다. 반면, 토큰 임베딩 차원 $d$ 는 $O(d)$ 비트의 정보를 저장할 수 있는 잠재력을 가지고 있습니다.
단일 경로 의존성: 매 단계에서 하나의 토큰만 선택하므로, 모델은 특정 해답에过早하게 (prematurely) 수렴하거나 대안적인 추론 경로를 탐색하지 못할 수 있습니다.
비효율적인 병렬화: 기존에는 여러 CoT 경로를 생성하여 결과를 집계 (Self-consistency, Best-of-N) 하는 방식으로 병렬 탐색을 시뮬레이션했으나, 이는 추론 시 계산 비용을 크게 증가시킵니다.

2. 방법론 (Methodology)

저자들은 **CoT2 (Chain of Thought with Continuous Tokens)**를 도입하여, 모델이 어휘집에서 단일 토큰을 선택하는 대신, 소프트맥스 (softmax) 출력에 기반한 **연속적인 토큰의 중첩 (superposition)**을 생성하도록 합니다.

핵심 구성 요소:

연속적 토큰 표현 (Continuous Token Representation):
- $t$ 단계에서 모델은 어휘집 전체에 대한 확률 분포 $\alpha_t \in \Delta^{v-1}$ 를 출력합니다.
- 이산 토큰 대신, 모든 어휘 토큰의 임베딩을 가중치 $\alpha_t$ 로 선형 결합한 연속 토큰 $z_t = E^\top \alpha_t$ 를 생성하여 다음 단계의 입력으로 사용합니다.
- 이는 모델이 한 번의 추론 단계에서 여러 개의 논리적 경로를 동시에 (병렬로) 추적할 수 있게 합니다.
제약된 감독 학습 (Budget-constrained Supervision, CSFT):
- 목표: 모델이 전문가 (teacher) 가 생성한 여러 개의 올바른 추론 경로 (trajectories) 를 동시에 학습하도록 합니다.
- 방식: $B$ 개의 최상위 경로를 선택하여, 각 단계에서 방문한 상태들의 임베딩을 평균낸 분포를 타겟으로 설정합니다.
- 예산 (Budget, $B$ ): $B=1$ 이면 기존 이산 CoT 와 동일하고, $B$ 가 커질수록 더 많은 경로를 중첩하여 학습합니다. 이는 모델의 임베딩 용량 (dimension) 과 병렬화 수준 사이의 트레이드오프를 조절합니다.
샘플링 및 강화 학습 (Sampling & RL):
- CoT2-MTS (Multi-Token Sampling): 추론 시 $K$ 개의 이산 토큰을 샘플링하여 평균을 내는 방식으로, 병렬화 수준을 제어합니다.
- Dirichlet Sampling: 확률 심플렉스 (simplex) 위에서 Dirichlet 분포를 통해 연속 토큰을 샘플링하는 대안적 방법.
- GRPO (Group Relative Policy Optimization): CoT2 환경에 적용된 강화 학습 알고리즘으로, 모델이 관련성 높은 추론 경로를 우선시하고 엔트로피를 줄이도록 미세 조정합니다.

3. 주요 기여 (Key Contributions)

가. 이론적 보장 (Theoretical Guarantees)

병렬 탐색 능력: CoT2 가 임베딩 차원 $d$ 내에서 $B \approx \Theta(d / \log(v/B))$ 개의 상태를 중첩하여 표현할 수 있음을 증명했습니다. 이는 이산 CoT 가 $B=1$ 일 때의 정보 효율성 한계를 극복합니다.
MNNS 문제 해결: "최소 비음수 합 (Minimum Non-Negative Sum, MNNS)" 문제를 해결하기 위해 단일 레이어 트랜스포머가 CoT2 를 사용하여 모든 가능한 경로를 잠잠 공간 (latent space) 에서 병렬로 추적하고 확장할 수 있음을 구성적으로 증명했습니다.
표본 복잡도 (Sample Complexity): CoT2-MTS 는 $K$ 개의 이산 CoT 경로와 동등한 추정 능력을 가지며, 이산 CoT 보다 $K$ 배 적은 샘플로 동일한 정확도를 달성할 수 있음을 보였습니다.

나. 새로운 학습 및 추론 전략

CSFT (Continuous Supervised Fine-Tuning): 이산 라벨 대신 "소프트 타겟" (경로들의 확률 분포) 을 사용하여 모델을 학습시키는 새로운 감독 전략을 제안했습니다.
RL 기반 최적화: CoT2 를 위한 GRPO 기반 강화 학습을 도입하여, 모델이 초기 감독 학습 (SFT) 이후에도 추론 경로를 더 효과적으로 우선순위화하도록 개선했습니다.

4. 실험 결과 (Results)

MNNS, ProntoQA, ProsQA 등의 논리적 추론 및 검색 기반 태스크에서 실험을 수행했습니다.

성능 향상: CoT2 모델은 이산 CoT, COCONUT(기존 연속 토큰 방법), CoT 없는 모델보다 MNNS 및 ProsQA 태스크에서 일관되게 높은 정확도를 기록했습니다.
- 예: MNNS 태스크에서 CoT2 는 98.94% 정확도를 달성한 반면, 이산 CoT 는 84.92% 였습니다.
단일 샷 (Single-shot) 성능: CoT2 는 단일 추론 단계 (Pass@1) 에서 이산 CoT 가 여러 번의 샘플링 (Pass@k) 을 통해 도달하는 수준의 성능을 달성했습니다. 이는 추론 비용 절감을 의미합니다.
예산과 차원의 트레이드오프: 임베딩 차원 ( $d$ ) 이 충분할 때만 큰 예산 ( $B$ ) 을 사용하는 것이 유리함을 확인했습니다. ( $d$ 가 작으면 $B$ 가 너무 크면 오히려 성능이 저하됨).
강화 학습 효과: GRPO 를 적용한 CoT2-MTS 는 SFT 만으로 학습된 모델보다 추가적인 정확도 향상을 보였으며, 특히 이산 CoT 기반 모델의 경우 RL 을 통해 탐색 능력이 크게 개선되었습니다.

5. 의의 및 결론 (Significance)

계산 효율성: CoT2 는 여러 추론 경로를 단일 연속 토큰으로 중첩하여 표현함으로써, 외부에서 여러 번의 추론을 실행하는 것보다 훨씬 효율적으로 병렬 탐색을 수행할 수 있음을 입증했습니다.
모델 표현력 확장: 토큰 임베딩의 연속적 특성을 활용하여 모델이 복잡한 조합 최적화 문제 (Subset Sum 등) 를 해결하는 능력을 이론적으로 증명했습니다.
미래 지향성: 이 연구는 LLM 이 자연어 토큰을 넘어 연속적인 잠재 공간 (continuous latent space) 에서 추론하는 새로운 패러다임을 제시하며, 강화 학습과 결합하여 더욱 지능적인 추론 시스템을 구축할 수 있는 길을 열었습니다.

요약하자면, 이 논문은 CoT2를 통해 언어 모델이 단일 추론 단계에서 다중 경로를 병렬로 탐색할 수 있게 함으로써, 추론 정확도를 높이고 계산 비용을 줄이는 획기적인 방법을 제시했습니다.