Each language version is independently generated for its own context, not a direct translation.

🧠 "다시 생각하기 (Re2)": AI 가 틀렸을 때 멈추고 다시 시작하는 법

이 논문은 거대한 언어 모델 (LLM) 이 복잡한 문제를 풀 때, "틀린 길로 계속 나아가는 것"보다 "틀렸음을 깨닫고 처음부터 다시 시작하는 것"이 훨씬 더 똑똑한 방법이라는 사실을 발견하고, 이를 학습시키는 새로운 기술을 소개합니다.

제목인 Re2(Reinforcement Learning with Re-solving) 는 쉽게 말해 **"재해결을 통한 강화 학습"**입니다.

1. 문제: AI 는 왜 자꾸 "과도한 생각 (Overthinking)"에 빠질까요?

기존의 AI 는 문제를 풀 때, 한 번 시작한 생각의 흐름 (Chain-of-Thought) 을 끝까지 밀고 나가는 경향이 있습니다. 마치 미로에 갇힌 쥐처럼요.

상황: 쥐가 미로 입구에 들어갔는데, 그 길이 막힌 길 (Dead End) 이라는 것을 모릅니다.
기존 AI 의 행동: "아마도 이 길이 맞을 거야!"라고 생각하며 벽을 계속 뚫고, 더 긴 통로를 만들어가며 헤매다가 결국 지쳐서 엉뚱한 곳으로 빠져나옵니다.
결과: 생각한 내용이 너무 길어졌지만 (토큰 소비 증가), 정답은 못 찾습니다. 이를 논문에서는 **"불필요한 생각 (Overthinking)"**이라고 부릅니다.

논문은 분석을 통해 **"초반에 방향을 잘못 잡으면, 아무리 더 많은 생각을 추가해도 정답에 도달하기 어렵다"**는 사실을 증명했습니다.

2. 해결책: Re2, "아, 이 길은 아니야!"라고 말하게 하기

저자들은 AI 에게 **"지금 가는 길이 틀린 것 같으면, 과감히 포기하고 처음부터 다시 시작하자"**는 능력을 가르쳤습니다.

비유: 미로에 들어간 쥐가 "이 길은 막혔네?"라고 깨닫고, 즉시 미로 입구로 돌아와서 (Restart) 다른 길을 찾아보는 것입니다.
Re2 의 핵심: AI 는 문제를 풀다가 "이건 안 될 것 같아"라고 판단하면, **답을 내는 대신 "다시 시작 (Re-solve)"**이라는 행동을 선택할 수 있습니다.

3. 어떻게 가르쳤을까요? (강화 학습의 마법)

기존 방식은 "정답을 맞히면 점수 +1, 틀리면 점수 0"이었습니다. 하지만 Re2 는 조금 더 똑똑한 보상 시스템을 썼습니다.

보상 시스템:
- 정답을 맞히면: 점수 +1 (기존과 동일)
- 틀린 답을 내면: 점수 0
- 재시작 (Re-solve) 을 선택하면: "지금 이 상태에서 다시 시작했을 때 정답을 맞힐 확률"만큼 점수를 줍니다.

예시:

상황: AI 가 미로에서 막다른 길에 도달했습니다.
기존 AI: 막다른 길 끝에서 "아마도 여기가 출구일 거야!"라고 억지로 답을 냅니다 (점수 0).
Re2 AI: "이 길은 틀렸어. 다시 시작하는 게 더 유리해!"라고 판단하고 재시작을 선택합니다.
결과: 재시작을 통해 새로운 길을 찾아 정답을 맞힐 확률이 높으므로, AI 는 **"틀린 길에서 멈추고 다시 시작하는 것"**을 배우게 됩니다.

4. 실제 효과: 얼마나 잘할까요?

실험 결과, Re2 는 기존 방식보다 훨씬 뛰어난 성과를 보였습니다.

재시작 비율 증가: 원래 AI 는 0.5% 만 재시작을 했지만, Re2 를 적용하면 30% 이상이 재시작을 선택하게 되었습니다.
정답률 향상: 수학 문제 (AIME, AMC 등) 와 과학 문제에서 정답률이 크게 올랐습니다.
효율성: 같은 양의 계산 자원을 썼을 때, Re2 가 더 많은 문제를 맞혔습니다.

5. 요약: 인간처럼 생각하는 AI 로의 진화

이 논문은 AI 가 단순히 "계속 생각하기"만 하는 것이 아니라, **"생각의 질을 판단하고 방향을 전환하는 능력"**을 배워야 함을 보여줍니다.

기존 AI: "무조건 끝까지 가자!" (비효율적, 틀린 길에 매몰됨)
Re2 AI: "이건 안 되네? 다시 해보자!" (유연함, 효율적, 정답率高)

마치 훌륭한 탐정이 잘못된 단서를 발견하면, 집착하지 않고 즉시 초기 단계로 돌아가 새로운 단서를 찾는 것과 같습니다. Re2 는 AI 에게 이런 현명한 판단력을 심어준 혁신적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 테스트 시간 계산량 (Test-time compute) 을 늘려 추론 능력을 향상시키는 '테스트 시간 스케일링'을 통해 복잡한 추론 과제를 해결할 수 있습니다. 그러나 기존 강화 학습 (RL) 기반의 방법론 (RLVR, Reinforcement Learning with Verifiable Rewards) 은 다음과 같은 근본적인 한계를 가지고 있습니다.

비효율적인 과잉 사고 (Overthinking): 모델이 초기 추론 단계에서 잘못된 방향이나 낮은 품질의 단계를 시작하면, 정답에 도달하기 위해 불필요하게 많은 토큰을 생성하며 '과잉 사고'를 합니다.
초기 추론의 결정적 중요성: 실험 결과, 초기 추론 단계 (Prefix) 가 잘못되면 모델이 이후에 생성하는 토큰 양이 아무리 많아도 정답에 도달할 확률이 급격히 떨어지는 것으로 나타났습니다. 즉, 잘못된 길로 들어선 추론 경로는 회복하기 매우 어렵습니다.
기존 방법의 한계: 기존 RLVR 은 모델이 항상 하나의 추론 체인 (CoT) 을 완성하여 최종 답을 내도록 강요합니다. 모델이 잘못된 경로를 인식하고 처음부터 다시 시작 (Restart) 해야 할 때, 이를 유연하게 수행할 수 있는 메커니즘이 부재합니다.

2. 제안 방법론: Re2 (Reinforcement Learning with Re-solving)

저자들은 모델이 현재 추론 경로가 비생산적일 때 이를 포기하고 문제를 처음부터 다시 풀 수 있는 능력을 학습시키기 위해 Re2를 제안합니다.

핵심 아이디어

모델은 추론 과정에서 두 가지 선택지를 가집니다:

계속하기 (Continue): 현재 경로가 유망하다고 판단하여 최종 답을 도출.
다시 풀기 (Re-solve/Redo): 현재 경로가 막다른 길이거나 혼란스러울 때, "이 문제는 다시 풀어야 한다"고 판단하고 처음부터 다시 시작.

학습 프레임워크

Prefix Group Generation: 각 질문 (Query) 에 대해 $n$ 개의 전체 응답을 샘플링하고, 이를 무작위로 잘라 $n$ 개의 서로 다른 '전구문 (Prefix)'을 생성합니다. 각 전구문에서 $m$ 개의 추론 연속체 (Continuations) 를 생성하여 그룹을 형성합니다.
Reward Strategy (보상 전략):
- 정답 (Correct): 보상 = 1
- 오답 (Incorrect): 보상 = 0
- 다시 풀기 (Resolve): 이 선택에 대한 보상은 **그룹 외부 (Out-of-group)**의 다른 전구문들로부터 추정된 '처음부터 다시 풀었을 때의 성공 확률'로 부여됩니다.
  - 수식: $r_{resolve} = P_{\neq i}(correct) \cdot \frac{1 - P_{\neq i}(resolve)^R}{1 - P_{\neq i}(resolve)}$
  - 이는 모델이 현재 경로가 실패할 확률이 높다면, 다시 시작하는 것이 기대 보상이 더 높다는 것을 학습하게 합니다.
Advantage Computation: DAPO 와 유사하게 그룹 내 평균 보상과 표준 편차를 사용하여 이점 (Advantage) 을 계산하고 정책 (Policy) 을 업데이트합니다.
Supervised Fine-Tuning (SFT) 불필요: Re2 는 사전 SFT 없이 **순수 강화 학습 (Pure RL)**만으로 학습이 가능합니다.

3. 주요 기여 (Key Contributions)

새로운 추론 패러다임: 기존 단일 체인 (Single-chain) 추론을 넘어, 모델이 실패한 경로를 인지하고 재시작할 수 있는 '재해결 (Re-solving)' 패러다임을 RL 에 도입했습니다.
순수 RL 을 통한 행동 학습: 별도의 SFT 없이 순수 RL 만으로 모델의 '다시 풀기 (Redo)' 행동을 0.5% 에서 30% 이상으로 극적으로 증가시켰습니다.
효율적인 테스트 시간 스케일링: 동일한 학습 예산 (Compute budget) 하에서 기존 RLVR 방법 (DAPO 등) 보다 뛰어난 성능을 달성하며, 테스트 시간 계산량 증가에 따른 성능 향상 곡선 (Scaling curve) 에서도 우위를 보였습니다.

4. 실험 결과 (Results)

벤치마크: AIME 2024/2025, AMC 2023, GSM8K, GPQA-Diamond 등 다양한 난이도와 도메인의 5 개 추론 벤치마크에서 평가되었습니다.
모델 범위: 3B 에서 14B 파라미터까지의 Base, Instruction-tuned, Reasoning 모델 (Qwen, Llama, DeepSeek-R1 등) 에서 일관된 성능 향상을 보였습니다.
성능 비교:
- DAPO 대비 향상: 모든 모델과 벤치마크에서 DAPO 보다 높은 정확도를 기록했습니다. (예: Qwen2.5-7B-Instruct 기준 평균 정확도 43.0% → 47.4% 향상)
- 난이도별 분석: 모델이 초기에 실패하기 쉬운 난이도 높은 문제 (AIME 등) 에서 Re2 의 성능 향상이 가장 두드러졌습니다. Re2 는 실패한 전구문에서 멈추고 재시작함으로써 DAPO 가 틀린 답을 강제로 내는 것을 방지했습니다.
학습 동역학: 학습 초기에 '다시 풀기' 행동이 급격히 활성화된 후, 모델이 어떤 상황에서 재시작해야 하는지 정교하게 조정하며 수렴하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

LLM 추론의 한계 극복: LLM 이 초기 추론 오류에서 회복하기 어렵다는 사실을 규명하고, 이를 해결하기 위한 메커니즘을 제시했습니다.
효율성과 정확도의 트레이드오프 해소: 단순히 추론 길이를 늘리는 것이 아니라, '질 좋은 초기 추론'과 '필요한 재시작'을 통해 더 적은 토큰으로도 더 높은 정확도를 달성할 수 있음을 증명했습니다.
미래 방향: Re2 는 LLM 이 인간과 유사하게 "전략을 재고하고 다시 시작하는" 유연한 추론 능력을 갖추도록 하는 새로운 방향성을 제시하며, 더 신뢰할 수 있고 유연한 추론 모델 개발의 토대가 됩니다.

요약하자면, Re2 는 LLM 이 잘못된 추론 경로를 고집하지 않고, Reinforcement Learning 을 통해 스스로 "다시 시작"하는 결정을 내리게 함으로써 복잡한 추론 문제 해결 능력을 획기적으로 향상시킨 혁신적인 프레임워크입니다.

Re2\textbf{Re}^{2}Re2: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

🧠 "다시 생각하기 (Re2)": AI 가 틀렸을 때 멈추고 다시 시작하는 법

1. 문제: AI 는 왜 자꾸 "과도한 생각 (Overthinking)"에 빠질까요?

2. 해결책: Re2, "아, 이 길은 아니야!"라고 말하게 하기

3. 어떻게 가르쳤을까요? (강화 학습의 마법)

4. 실제 효과: 얼마나 잘할까요?

5. 요약: 인간처럼 생각하는 AI 로의 진화

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론: Re2 (Reinforcement Learning with Re-solving)

핵심 아이디어

학습 프레임워크

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving