SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

이 논문은 엔트로피 추세를 기반으로 명시적 추론과 잠재적 추론을 동적으로 전환하고 과도한 사고를 제한하는 'SwiReasoning'이라는 학습 없는 프레임워크를 제안하여, 다양한 벤치마크에서 정확도와 토큰 효율성을 동시에 크게 향상시킨다고 설명합니다.

Dachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

SWIREASONING: AI 의 '생각하기' 방식을 바꾼 새로운 방법

이 논문은 인공지능 (LLM) 이 복잡한 문제를 풀 때, 어떻게 하면 더 똑똑하게 그리고 더 빠르게 생각할 수 있는지에 대한 새로운 방법을 소개합니다. 이 방법의 이름은 **'SWIREASONING'**입니다.

기존의 AI 는 문제를 풀 때 "생각하는 과정"을 모두 말로 (텍스트로) 적어내야 했습니다. 하지만 SWIREASONING 은 AI 가 말하지 않고 머릿속으로만 생각할 수도 있고, 필요할 때만 말로 적어내기도 하는 유연한 방식을 사용합니다.

이걸 이해하기 쉽게 한 명의 천재 학생이 시험을 보는 상황에 비유해 설명해 드릴게요.


1. 기존 방식의 문제점: "모든 걸 다 말해야 하는 학생"

기존의 AI(Chain-of-Thought) 는 문제를 풀 때, 생각하는 모든 과정을 입으로 다 말해야만 다음 단계로 넘어갈 수 있었습니다.

  • 비유: 시험장에서 학생이 "1 더하기 1 은 2 입니다. 2 에 2 를 더하면 4 입니다..."라고 입으로 소리 내어 모든 계산 과정을 말하고 답을 써야 합니다.
  • 단점 1 (정보 손실): 말로 표현할 수 없는 복잡한 생각이나 직감은 버려져야 합니다. 머릿속에 있는 풍부한 아이디어 중 일부만 입으로 꺼낼 수 있는 셈이죠.
  • 단점 2 (과도한 생각): 때로는 너무 많은 것을 말하려다 지쳐버립니다. "아, 이거 맞나? 저거 맞나?"라고 입으로 계속 중얼거리며 시간을 낭비하는 '과도한 생각 (Overthinking)'이 발생합니다.

2. SWIREASONING 의 핵심: "머릿속 생각과 입 밖 말하기의 스위치"

SWIREASONING 은 이 학생에게 두 가지 모드를 주고, 상황에 따라 스위치를 누르도록 가르쳤습니다.

A. '머릿속 모드' (Latent Thinking)

  • 상황: 문제를 처음 접했을 때, 어떤 길로 가야 할지 막막하거나 여러 가지 가능성을 동시에 고려해야 할 때.
  • 행동: 학생은 입을 다물고 머릿속으로만 여러 가지 시나리오를 빠르게 훑어봅니다.
  • 장점: 입으로 말하지 않아도 되므로, 한 번에 더 많은 아이디어를 동시에 처리할 수 있습니다. (정보의 밀도가 높음)
  • 위험: 너무 오래 머릿속에만 있으면, 생각이 꼬리에 꼬리를 물고 엉망이 되거나 (노이즈), 결론을 내지 못하고 헤맬 수 있습니다.

B. '입 밖 모드' (Explicit Thinking)

  • 상황: 머릿속에서 어느 정도 답이 보이고, 확신이 생겼을 때.
  • 행동: 학생은 입으로 명확하게 말하며 그 생각을 정리합니다.
  • 장점: 생각을 하나로 모아 (수렴) 명확한 결론을 내립니다.
  • 위험: 모든 것을 말하려다 보면 시간이 너무 오래 걸립니다.

3. 어떻게 스위치를 누를까? (신뢰도 계기판)

이 시스템의 가장 멋진 점은 언제 스위치를 누를지 AI 스스로 판단한다는 것입니다.

  • 신호: AI 는 자신의 '생각의 불확실성'을 **엔트로피 (Entropy)**라는 수치로 측정합니다. 쉽게 말해 **"내가 지금 얼마나 확신하는가?"**를 보는 계기판입니다.
  • 스위칭 규칙:
    1. 불확실할 때 (신뢰도 낮음): "아, 아직 모르겠네." → 머릿속 모드로 전환. 다양한 가능성을 탐색합니다.
    2. 확신할 때 (신뢰도 높음): "아, 이거다! 답이 보인다!" → 입 밖 모드로 전환. 생각을 정리하고 답을 냅니다.
    3. 안정화: 만약 확신이 생겼는데도 계속 머릿속으로만 생각하면, 다시 헤맬 수 있으니 즉시 입 밖으로 끌어와 정리합니다.

4. 과잉 사고 방지 (스위치 횟수 제한)

학생이 "생각-말하기-생각-말하기"를 너무 자주 반복하면 지칩니다. 그래서 스위치를 누를 수 있는 횟수에 제한을 둡니다.

  • 비유: "너는 이 문제를 풀 때 머릿속과 입 밖을 오가는 횟수가 5 번을 넘으면 안 돼. 5 번이 지나도 답이 안 나오면, 지금까지 생각한 것만 가지고 최선의 답을 내라."
  • 효과: 이렇게 하면 AI 가 불필요하게 길게 생각하며 시간을 낭비하는 것을 막아줍니다. (토큰 효율성 향상)

5. 실제 효과: 더 똑똑하고, 더 빠르고, 더 경제적

이론만 좋은 게 아닙니다. 수학, 과학, 코딩, 일반 상식 등 다양한 시험에서 이 방법을 적용한 결과:

  1. 정답률 상승: 특히 어려운 문제 (수학 경시대회 문제 등) 에서 정답을 맞히는 비율이 약 2~3% 증가했습니다. 이는 AI 가 더 깊은 추론을 할 수 있게 되었기 때문입니다.
  2. 시간과 비용 절감: 같은 정확도를 내더라도, 필요한 생각의 양 (토큰) 이 최대 79% 까지 줄어듭니다.
    • 비유: 같은 문제를 풀 때, 기존 방식은 100 장의 종이를 썼다면, SWIREASONING 은 20 장만 써도 같은 점수를 받습니다.

요약

SWIREASONING은 AI 에게 "모든 걸 다 말해라"라고 강요하는 대신, **"어떤 때는 머릿속으로 깊이 생각해보고, 어떤 때는 확신이 들면 명확하게 말해라"**라고 가르친 것입니다.

이처럼 **생각의 깊이 (머릿속)**와 **결과의 명확성 (입 밖)**을 상황에 따라 유연하게 섞어주는 이 방식은, AI 가 더 똑똑해지면서도 더 빠르고 경제적으로 작동하게 만드는 혁신적인 기술입니다. 마치 명상과 발표를 적절히 섞어 문제를 해결하는 현명한 학생과 같습니다.