Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

이 논문은 연속적 사고 (continuous CoT) 를 사용하는 2 층 트랜스포머가 그래프 도달 가능성 문제를 해결하는 과정에서, 국소 탐색 능력을 반영하는 인덱스 매칭 로짓이 증가 후 유계 (bounded) 되어 탐색과 활용을 균형 있게 조절함으로써 여러 추론 경로의 중첩 (superposition) 메커니즘이 어떻게 학습되는지를 이론적으로 분석하고 실험적으로 검증합니다.

Hanlin Zhu, Shibo Hao, Zhiting Hu, Jiantao Jiao, Stuart Russell, Yuandong Tian

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 이야기: "한 번에 한 길만 가는 것 vs 모든 길을 동시에 탐색하는 것"

전통적인 AI 는 문제를 풀 때 **한 번에 하나의 길 (단어)**만 선택합니다. 마치 미로에서 한 발짝을 내디딜 때마다 "왼쪽? 오른쪽?" 하고 하나만 골라 전진하는 거죠. 만약 잘못된 길을 선택하면, 뒤로 돌아와서 (Backtracking) 다시 시작해야 합니다. 이는 시간이 많이 걸리고 비효율적입니다.

하지만 이 논문에서 연구한 '연속적인 사고 (Continuous CoT)' 방식은 다릅니다. AI 가 미로에 들어설 때, 모든 가능한 길을 동시에 '유령'처럼 그려놓고 그 위에 모든 가능성을 얹어놓습니다. 이를 **'중첩 (Superposition)'**이라고 부릅니다.

비유:

  • 기존 방식: 한 번에 한 명씩 미로에 들어가는 탐험대. 잘못된 길로 가면 팀 전체가 다시 출발해야 함.
  • 새로운 방식 (이 논문): 탐험대 전체가 투명한 유령이 되어 미로의 모든 갈림길을 동시에 걸어보는 것. 어느 길로 가든 다 볼 수 있음.

🎓 이 논문이 발견한 놀라운 사실

과거 연구자들은 "AI 가 이렇게 여러 길을 동시에 보는 능력을 어떻게 배울 수 있지?"라고 의아해했습니다. 보통 AI 는 하나만 정답인 데이터를 보고 학습하니까요.

하지만 이 논문은 **"AI 가 그 능력을 스스로 터득한다"**고 증명했습니다. 그 비결은 **'적당한 강도'**를 유지하는 데 있었습니다.

1. "지나치게 자신하면 안 된다" (Bounded Logit)

AI 가 미로의 갈림길에서 다음 단계를 예측할 때, 그 확신 (Logit) 의 강도가 중요합니다.

  • 너무 약하면: AI 는 "어디로 가야 할지 모르겠다"며 무작위로 헤맨다. (탐색 부족)
  • 너무 강하면: AI 는 "아, 이쪽이 확실해!"라고 너무 일찍 결론 내리고, 다른 가능성을 무시해 버린다. (탐색 부족)
  • 적당하면 (이 논문의 발견): AI 는 **"아, 이쪽도 가능성 있고, 저쪽도 가능성 있네?"**라고 여러 갈림길에 비슷한 점수를 부여합니다.

이 **'적당한 강도'**가 유지될 때, AI 는 한 가지 길만 고집하지 않고 여러 가능성을 동시에 머릿속에 담아두는 (중첩) 능력을 자연스럽게 배우게 됩니다.

일상적인 비유:
식당 메뉴를 고를 때, "무조건 비빔밥이 최고야!"라고 너무 확신하면 (강도 과다), 다른 맛있는 메뉴를 놓칩니다. 반면, "비빔밥도 좋고, 냉면도 나쁘지 않네?"라고 여러 메뉴를 동시에 고려할 때 (적당한 강도), 가장 맛있는 조합을 찾을 확률이 높아집니다. AI 도 똑같이 학습합니다.


🚀 학습의 두 단계: "생각하기"와 "답하기"

이 논문은 AI 가 이 능력을 배우는 과정을 두 단계로 나누어 분석했습니다.

  1. 생각하기 단계 (Thought Generation):

    • AI 는 미로에서 출발점부터 시작해 한 걸음씩 나아가며 "지금까지 갈 수 있는 모든 곳"을 동시에 기억합니다.
    • 이때 AI 는 "다음 단계는 어디일까?"를 고민하며, 잘못된 길도 일단은 유령으로 남겨둡니다. 이 과정에서 '적당한 강도'가 유지되면, 여러 경로가 겹쳐진 상태 (중첩) 가 만들어집니다.
  2. 답하기 단계 (Prediction):

    • 이제 AI 는 "정답은 어디일까?"를 물어봅니다.
    • 앞서 만들어둔 '유령들의 지도 (중첩된 생각)'를 보고, 도착 가능한 곳과 불가능한 곳을 구분합니다.
    • 이때 AI 는 "도착 가능한 곳 (정답) 에는 더 높은 점수를 주고, 불가능한 곳에는 낮은 점수를 줍니다." 이 과정을 통해 최종 답을 맞춥니다.

💡 왜 이 연구가 중요한가요?

이 연구는 **"AI 가 복잡한 추론 능력을 어떻게 자연스럽게 얻는지"**에 대한 이론적인 근거를 제시했습니다.

  • 이전까지: AI 가 복잡한 문제를 풀려면 엄청난 양의 데이터와 계산 능력이 필요하다고 생각했습니다.
  • 이제: AI 가 여러 가능성을 동시에 고려하는 '중첩' 방식을 학습하면, 훨씬 더 효율적이고 똑똑하게 문제를 풀 수 있다는 것을 증명했습니다.

마치 한 명의 천재가 혼자 모든 일을 하는 것보다, 여러 명의 전문가가 동시에 아이디어를 내는 팀워크가 더 강력한 것과 같습니다. 이 논문은 AI 가 그 '팀워크 (중첩)'를 스스로 배우는 방법을 찾아낸 것입니다.

📝 한 줄 요약

"AI 가 복잡한 미로를 풀 때, '너무 확신하지 않고' 여러 길을 동시에 고려하는 능력을 자연스럽게 배운다면, 훨씬 더 똑똑하고 효율적으로 문제를 해결할 수 있다!"

이 발견은 앞으로 더 똑똑하고 빠른 AI 를 만드는 데 중요한 지도가 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →