CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

이 논문은 대형 추론 모델의 성능을 저하시킬 수 있는 과도하거나 부족한 반사적 사고를 최적화하기 위해, 추가 계산 비용 없이 추론 토큰의 배치와 빈도를 삼각파 형태로 주기적으로 조절하는 'CyclicReflex'라는 훈련 없는 디코딩 전략을 제안합니다.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 의 '생각'이 너무 많거나 너무 적을 때

최근 OpenAI 의 o1 이나 DeepSeek-R1 같은 AI 는 복잡한 문제를 풀기 위해 **'생각의 과정 (Chain of Thought)'**을 거칩니다. 이때 AI 는 중간중간 "잠깐만 (Wait)", "하지만 (But)", "다른 방법은 없을까 (Alternatively)" 같은 말을 쓰며 스스로를 점검합니다. 이를 논문에서는 **'반성 토큰 (Reflection Tokens)'**이라고 부릅니다.

하지만 여기서 두 가지 문제가 발생합니다.

  • 🐢 너무 적게 생각하는 경우 (Under-reflection):
    • 상황: AI 가 문제를 풀다가 "아, 이거다!" 하고 너무 빨리 결론을 내립니다.
    • 비유: 시험을 보는데 문제를 다 읽지도 않고 첫 번째 생각만으로 답을 적어내는 학생처럼, 중요한 단서를 놓쳐서 틀린 답을 냅니다.
  • 🌀 너무 많이 생각하는 경우 (Over-reflection):
    • 상황: AI 가 아주 쉬운 문제인데도 "잠깐만... 아니야... 다시 생각해보자..." 하며 같은 말만 반복합니다.
    • 비유: 간단한 계산 문제인데도 "잠깐만, 내 손가락이 몇 개였지?" 하며 10 분 동안 망설이다가 결국 지쳐서 틀린 답을 내거나, 아예 답을 못 내는 학생 같습니다.

이 두 가지 모두 AI 의 성능을 떨어뜨립니다.


2. 해결책: '학습 속도'를 조절하듯 '생각의 리듬'을 바꾸다

논문 저자들은 이 문제를 해결하기 위해 수학의 '학습률 (Learning Rate)' 개념을 차용했습니다.

  • 기존의 방식 (TIP 등): AI 가 "잠깐만"이라고 말할 때마다 무조건 "그만해, 빨리 답을 내!"라고 한쪽 방향으로만 강제로 억제했습니다.
    • 비유: 학생이 고민할 때마다 "그만해!"라고 소리치는 선생님. 하지만 학생이 진짜로 고민이 필요한 상황에서도 멈추게 되어 오히려 실수를 합니다.
  • 새로운 방식 (CyclicReflex): **"생각의 리듬"**을 만들어줍니다.
    • 핵심 아이디어: AI 가 문제를 풀 때, 생각을 깊게 해야 할 때는 "잠깐만"을鼓励하고, 결론을 내려야 할 때는 "잠깐만"을 억제하는 주기적인 패턴을 적용합니다.
    • 비유: 달리기 코치가 선수에게 "지금부터는 힘껏 달려라 (탐색)"라고 외치다가, "이제 멈춰서 자세를 잡아라 (수렴)"라고 지시하는 것과 같습니다.
    • 파형 (Waveform): 이 조절은 삼각형 모양의 파동처럼 반복됩니다.
      • 오름차순 구간: "자, 이제 다양한 가능성을 찾아보자!" (생각을 확장)
      • 내림차순 구간: "좋아, 이제 찾은 답을 정리해서 끝내자." (생각을 수렴)

이 방법은 AI 를 훈련시키지 않고도, 단순히 말투 (토큰) 를 조절하는 것만으로 작동하므로 추가 비용이 들지 않습니다.


3. 실제 효과: 더 똑똑하고 빠른 AI

이 방법을 적용한 결과, 수학 문제 (MATH500, AIME 등) 와 코딩 문제에서 AI 의 정답률이 크게 향상되었습니다.

  • 정답률 상승: 특히 어려운 문제에서 AI 가 포기하지 않고 더 깊이 생각하게 되어 정답을 맞히는 경우가 많아졌습니다.
  • 자기 교정 능력: 만약 AI 가 처음에 틀린 길로 갔을 때, "잠깐만, 다시 생각해보자"라는 신호가 적절한 타이밍에 와서 실수를 스스로 찾아내어 수정하는 능력이 좋아졌습니다.
  • 비유:
    • 기존 AI: 길을 잃으면 그냥 멈추거나, 같은 길을 계속 돌고 돌아서 지쳐버림.
    • CyclicReflex 적용 AI: 길을 잃으면 "잠깐, 지도를 다시 보자" (탐색) 하고, 방향을 잡으면 "좋아, 이 길로 가자" (수렴) 하며 효율적으로 목적지에 도달함.

4. 요약: 한 줄로 정리하면?

"AI 가 문제를 풀 때, '잠깐만'이라는 생각의 신호를 무작정 막거나 늘리는 게 아니라, 마치 음악의 박자처럼 '깊게 생각할 때'와 '결론을 낼 때'를 주기적으로 조절해 주면, AI 는 훨씬 더 똑똑하고 효율적으로 문제를 푼다."

이 논문은 AI 가 단순히 더 많은 데이터를 학습하는 것뿐만 아니라, 생각하는 '방법'과 '리듬'을 조절하는 것이 얼마나 중요한지 보여줍니다. 마치 좋은 코치가 선수의 컨디션을 조절하듯, AI 의 생각 흐름을 조절하는 새로운 시대가 열린 셈입니다.