Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

이 논문은 '불투명 직렬 깊이 (opaque serial depth)'라는 개념을 정립하고 이를 통해 체인 오브 씽킹 (Chain of Thought) 없이 수행 가능한 추론의 한계를 정량화하여, 모델이 외부화되지 않은 추론을 할 수 있는 잠재력을 평가하는 새로운 도구를 제시합니다.

Jonah Brown-Cohen, David Lindner, Rohin Shah

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: AI 는 '생각'을 숨길 수 있을까?

대부분의 최신 AI(거대 언어 모델) 는 우리가 입력한 질문에 답할 때, **생각하는 과정 (Chain of Thought)**을 텍스트로 먼저 출력합니다.
예를 들어, "사과가 5 개 있는데 2 개를 먹으면?"이라고 물으면, AI 는 바로 "3"이라고 답하는 대신, **"5 에서 2 를 빼면 3 이다"**라고 말하며 답을 줍니다.

연구자들은 이것이 단순한 습관이 아니라, AI 가 복잡한 문제를 풀기 위해 필수적으로 거쳐야 하는 단계라고 봅니다. 마치 우리가 어려운 수학 문제를 풀 때 종이에 계산 과정을 적어놓지 않고는 머릿속만으로 해결하기 어려운 것과 비슷합니다.

하지만 만약 AI 가 생각하는 과정을 텍스트로 쓰지 않고, 머릿속 (내부 회로) 에서만 모든 계산을 끝낸다면? 우리는 AI 가 어떻게 그 답을 냈는지 전혀 알 수 없게 됩니다. 이것이 바로 **'불투명한 (Opaque) 사고'**입니다.

2. 새로운 자: '불투명한 심도 (Opaque Serial Depth)'

이 논문은 AI 가 얼마나 많은 '불투명한 사고'를 할 수 있는지 측정하는 새로운 자를 만들었습니다. 이를 **'불투명한 심도'**라고 부릅니다.

  • 비유: AI 를 거대한 공장이라고 상상해 보세요.
    • 투명한 공장 (Chain of Thought): 공장의 모든 작업이 유리창으로 된 방에서 이루어집니다. 우리는 어떤 기계가 어떤 재료를 어떻게 가공하는지 실시간으로 볼 수 있습니다.
    • 불투명한 공장 (Opaque Computation): 공장의 일부 구역이 검은색 방으로 되어 있습니다. 우리는 재료가 들어가는 것과 결과물이 나오는 것만 볼 수 있고, 그 사이에서 무슨 일이 일어나는지 알 수 없습니다.

이 논문은 **"AI 가 검은색 방 (불투명한 구역) 에서 얼마나 긴 시간, 얼마나 복잡한 작업을 할 수 있는가?"**를 계산하는 방법을 제시합니다.

3. 왜 이것이 중요한가? (안전과 감시)

만약 AI 가 검은색 방에서 너무 길고 복잡한 작업을 할 수 있다면, 우리는 AI 가 **사악한 계획을 세우거나, 우리를 속이는 방법 (스텔라그래피)**을 그 안에서 개발할 수 있습니다.

  • 현재의 AI (Transformer): 대부분의 최신 AI 는 '유리창' 구조를 가지고 있습니다. 정보를 다음 단계로 넘길 때 반드시 '텍스트 (생각의 과정)'를 거쳐야 합니다. 따라서 AI 가 복잡한 문제를 풀려면 반드시 생각 과정을 외부에 드러내야 합니다. 이는 AI 를 감시하기에 아주 좋은 구조입니다.
  • 미래의 AI (RNN 또는 다른 구조): 만약 AI 의 구조가 바뀌어, '생각'을 텍스트 없이 머릿속 (활성화 값) 에서만 계속 이어갈 수 있다면, AI 는 우리가 전혀 눈치채지 못한 채 복잡한 계획을 세울 수 있게 됩니다.

4. 연구 결과: 어떤 구조가 더 위험한가?

연구팀은 이 '불투명한 심도'를 계산하는 자동화된 도구를 개발하고, 실제 AI 모델 (Gemma 3 등) 에 적용해 보았습니다.

  • 일반적인 AI (Transformer): 생각 과정이 텍스트로 드러나기 때문에, '불투명한 심도'가 비교적 낮습니다. 즉, 복잡한 일을 하려면 반드시 우리를 통해 지나가야 합니다.
  • 순환 신경망 (RNN) 이나 메모리 구조: 정보를 텍스트 없이 내부에서만 전달할 수 있는 구조는 '불투명한 심도'가 매우 높습니다. 이는 AI 가 내부에서 아주 긴 시간 동안 '생각'할 수 있음을 의미하며, 이는 감시하기 어렵다는 뜻입니다.
  • 전문가 혼합 모델 (MoE): 흥미롭게도, 여러 전문가가 협력하는 방식 (MoE) 은 일반 모델보다 '불투명한 심도'가 더 낮을 수 있다는 결과가 나왔습니다. 즉, 구조에 따라 오히려 더 투명해질 수도 있다는 뜻입니다.

5. 결론: 우리는 무엇을 해야 할까?

이 논문의 결론은 매우 명확합니다.

"우리는 AI 가 똑똑해지길 원하지만, 그 과정에서 AI 가 '생각하는 과정'을 숨기지 못하게 해야 합니다."

이를 위해 우리는 AI 의 구조를 설계할 때, "생각을 외부로 드러내지 않고는 복잡한 문제를 풀 수 없도록" 만드는 것이 안전을 위해 필수적이라고 말합니다. 마치 도둑이 도둑질을 하려면 반드시 문을 열어야 하듯이, AI 가 복잡한 계획을 세우려면 반드시 '생각의 과정'을 보여줘야만 감시하고 막을 수 있다는 것입니다.

한 줄 요약:
이 논문은 **"AI 가 머릿속으로만 생각할 수 있는 능력 (불투명한 심도) 을 수학적으로 측정하는 방법을 개발했고, 이 능력을 제한하는 것이 AI 를 안전하게 만드는 핵심"**임을 증명했습니다.