Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 너무 자신만만해져서 틀린 답을 정답인 것처럼 믿게 되는 문제"**를 해결한 연구입니다.

간단히 말해, **"정답을 맞추는 능력 (추론)"**과 **"자신의 답이 맞을 확률을 정확히 아는 능력 (신뢰도)"**을 분리해서 따로 훈련시켰더니, AI 가 훨씬 더 똑똑하고 겸손해졌다는 이야기입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제: "자신감 과잉"에 걸린 천재 학생

과거의 AI 학습 방식 (RLVR) 은 마치 "정답만 맞으면 칭찬하고, 틀리면 혼내는" 시험을 치르게 한 것과 같습니다.

상황: AI 는 수학 문제를 풀 때 정답을 맞히기 위해 노력합니다.
문제: AI 는 정답을 맞히기 위해 점점 더 과도한 자신감을 갖게 됩니다.
- 비유: 시험에서 100 점만 맞으면 "천재!"라고 칭찬받는 학생이 있다고 칩시다. 이 학생은 나중에 100 점이 아닌 60 점짜리 문제를 풀어도 "내가 100 점 맞았어!"라고 소리치며 자신감 넘치게 답을 내놓습니다.
- 결과: AI 는 틀린 답을 낼 때도 "99% 확률로 맞다!"라고 장담합니다. 이렇게 되면 의료나 법률 같은 중요한 분야에서 AI 가 틀린 정보를 자신 있게 말해줄 때, 사람들은 그걸 믿고 큰 피해를 볼 수 있습니다.

2. 기존 해결책의 실패: "양날의 검"

연구자들은 "자신감 조절도 같이 가르쳐야지!"라고 생각했습니다. 하지만 기존 방식은 **"정답 맞추기"**와 **"자신감 조절하기"**를 한 번에 하려고 했습니다.

비유: 학생에게 "수학 문제도 풀고, 동시에 '내 점수가 맞을 확률'도 정확히 말해봐"라고 한 번에 시켰습니다.
문제: 이 두 가지 목표는 서로 충돌합니다.
- 정답을 맞추려면 "내가 무조건 맞을 거야!"라고 믿고 과감하게 답해야 하지만,
- 자신감을 조절하려면 "아, 내가 틀릴 수도 있겠네"라고 겸손해져야 합니다.
- 결과: 두 마리 토끼를 다 잡으려다, 정답 맞추기 실력도 떨어지고 자신감 조절도 제대로 안 되는 최악의 상황이 벌어졌습니다. (논문에서는 이를 '경쟁하는 두 가지 목표'라고 표현합니다.)

3. 새로운 해결책 (DCPO): "역할 분리"

이 논문에서 제안한 DCPO는 아주 간단하지만 혁신적인 아이디어를 사용합니다. **"역할을 분리하자"**입니다.

비유: 한 명의 학생에게 두 가지 역할을 맡기는 대신, 두 명의 전문가를 고용하는 것과 같습니다.
1. 해결사 (Reasoning): "이 문제의 정답은 뭐야?"라고만 집중합니다. 정답을 맞추는 데만 몰입합니다.
2. 감정 분석가 (Confidence): "해결사가 낸 답이 맞을 확률이 얼마나 될까?"를 따로 분석합니다.

어떻게 작동하나요?

AI 가 문제를 풀고 답을 내면, 그 다음에 **"이 답이 맞을 확률은 몇 % 인가요?"**라고 스스로 물어보게 합니다.
해결사는 정답 여부를 보고 점수를 받습니다. (정답이면 칭찬, 틀리면 혼남)
감정 분석가는 "내가 말한 확률 (예: 90%) 과 실제 정답 여부가 일치했는지"를 보고 점수를 받습니다.
- 틀린 답을 냈는데 "90% 확률"이라고 했다면? -> 엄청난 감점!
- 맞은 답을 냈는데 "50% 확률"이라고 했다면? -> 점수 감소!
핵심: 이 두 과정의 학습 신호 (그라디언트) 를 완전히 분리했습니다. 그래서 "정답을 맞추려는 노력"이 "자신감 조절"을 방해하지 않고, 반대로 "자신감 조절"이 "정답 맞추기 실력"을 떨어뜨리지 않게 됩니다.

4. 또 다른 비법: "소문"과 "현실"의 조화

AI 가 혼자서 "내 답이 맞을까?"를 판단할 때, 한 번만 보면 너무 들쑥날쑥합니다. 그래서 논문은 그룹 (Group) 단위로 학습합니다.

비유: 한 번의 시험에서 8 명의 친구가 같은 문제를 풀게 합니다.
- 친구 A, B, C 는 정답을 맞췄고, D, E, F 는 틀렸습니다.
- 이때 친구 D(틀린 사람) 가 "내 답이 맞을 확률 90%"라고 말하면, 전체 그룹의 평균 정답률이 50% 라는 사실을 통해 "너는 너무 자신감 넘치는구나"라고 가르쳐 줍니다.
- 이렇게 여러 번의 시도를 평균내서 가르치니, AI 가 너무 극단적으로 변하는 것을 막고 안정적으로 학습할 수 있었습니다.

5. 결론: 왜 이 연구가 중요한가요?

이 연구 (DCPO) 를 적용한 AI 는 다음과 같은 변화를 보였습니다.

정답 맞추기 실력: 기존 최고 수준 (GRPO) 과 똑같이 훌륭합니다.
자신감 조절: 틀린 답을 낼 때 "내가 틀릴 수도 있겠다"라고 겸손하게 말하거나, 맞을 때만 "내가 맞다"라고 확신 있게 말합니다.

한 줄 요약:

"AI 가 정답을 맞추는 능력과 자신의 실력을 아는 능력을 따로 훈련시켜, 틀린 답을 할 때는 덜 자신 있게, 맞을 때는 확신 있게 말하는 똑똑하고 신뢰할 수 있는 AI 를 만들었습니다."

이제 AI 는 "내가 100% 맞다!"라고 소리치기보다, "이건 90% 확률로 맞을 것 같은데, 혹시 모를 오류를 대비해 한번 더 확인해 보세요"라고 말하는 신뢰할 수 있는 조력자가 될 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
검증 가능한 보상 (Verifiable Rewards) 을 이용한 강화학습 (RLVR, 예: GRPO) 은 대규모 언어 모델 (LLM) 의 추론 능력을 획기적으로 향상시켰습니다. 수학 추론, 코드 생성, 질문 답변 등 다양한 분야에서 뛰어난 성과를 보이고 있습니다.

핵심 문제:
RLVR 은 모델의 보정 (Calibration) 을 심각하게 저하시키는 (Calibration Degeneration) 문제를 야기합니다.

과신 (Over-confidence): 모델이 틀린 답변을 할 때조차 매우 높은 확률 (신뢰도) 을 부여하는 현상이 발생합니다.
실제 영향: 의료, 법률, 금융 등 고위험 분야에서 잘못된 답변에 대한 과도한 확신은 사용자를 오도하고 시스템적 위험을 증폭시킵니다.
기존 접근법의 한계: 기존 연구들은 보정 (Calibration) 목적 함수를 기존 RL 최적화 목표에 직접 결합 (Coupled Optimization) 하려 했습니다. 그러나 이는 **'정확도 - 보정 트레이드오프 (Accuracy-Calibration Tradeoff)'**를 초래하여, 보정을 개선하려다 추론 정확도가 떨어지는 결과를 낳았습니다.

2. 이론적 분석 및 통찰 (Theoretical Analysis)

저자들은 위 문제의 근본 원인을 이론적으로 분석하여 두 가지 중요한 사실을 규명했습니다.

궤적 수준 RLVR 의 구조적 과신:
- 엔트로피 정규화가 명시적으로 없는 경우, 정확도 최대화 목표 ( $J_{acc}$ ) 는 최적 해가 단일 궤적에 확률 질량을 1 로 집중시키는 '모드 붕괴 (Mode Collapse)'를 유도합니다. 이는 입력의 작은 변화에도 확신이 높은 잘못된 예측을 하게 만듭니다.
정확도와 보정의 그라디언트 충돌 (Gradient Conflict):
- 모델이 과신 상태일 때, 정확도를 최대화하는 그라디언트 방향과 보정 오차를 최소화하는 그라디언트 방향은 Fisher-메트릭 내적 관점에서 **부정적 (Negative)**으로 정렬됩니다.
- 즉, 두 목표를 동시에 최적화하려 하면 서로 상충되어 파레토 최적 상태에 도달하기 어렵습니다. 이것이 기존 결합 최적화 방식이 정확도 저하를 초래하는 이론적 근거입니다.
그룹 수준 정확도의 안정성:
- 개별 인스턴스 (Instance-level) 의 정답 여부는 높은 분산을 가지지만, GRPO 의 그룹 샘플링 (Group Sampling) 기법을 활용한 **그룹 내 평균 정확도 (Group-level Accuracy)**는 보정 학습을 위한 더 안정적이고 분산이 낮은 감독 신호로 작용할 수 있음을 증명했습니다.

3. 제안 방법: DCPO (Decoupled Calibration Policy Optimization)

저자들은 추론 (Reasoning) 과 신뢰도 (Confidence) 최적화를 체계적으로 분리하는 DCPO 프레임워크를 제안했습니다.

주요 구성 요소:

블록 단위 구어체 신뢰도 롤아웃 (Block-wise Verbalized Confidence Rollout):
- 모델이 답변을 생성할 때, 추론 블록과 신뢰도 블록을 명확히 분리합니다.
- 구조: [추론 과정 및 답변] <conf> [신뢰도 점수]
- 모델은 추론 후 명시적으로 신뢰도 점수를 출력하도록 프롬프트됩니다.
분리된 이점 추정 (Decoupled Advantage Estimation):
- 추론 보상: 정답 여부 (Accuracy) 에 기반한 표준 보상을 적용합니다.
- 보정 보상: 모델이 예측한 신뢰도 점수와 실제 정답률 간의 오차를 기반으로 보상을 설계합니다.
- 하이브리드 보정 목표: 안정성 (그룹 수준) 과 세밀한 구분 (인스턴스 수준) 을 위해 두 가지 신호를 가중치 ( $\lambda$ $λ$ ) 로 혼합합니다.
  - $R_{IG} = \lambda \cdot \tilde{R}_G + (1-\lambda) \cdot R_{instance}$
- 이를 통해 추론과 보정 각각에 대한 이점 (Advantage) 을 독립적으로 계산합니다.
마스크된 그라디언트 최적화 (Masked Gradient Optimization):
- 핵심 기법: 추론 토큰과 신뢰도 토큰에 대해 서로 다른 이점 신호를 적용하기 위해 그라디언트 업데이트 시 **마스크 (Mask)**를 사용합니다.
- 추론 토큰에는 정확도 관련 이점만, 신뢰도 토큰에는 보정 관련 이점만 적용됩니다.
- 이를 통해 두 목표 간의 그라디언트 충돌을 근본적으로 차단하고, 하나의 정책 (Policy) 하에서도 두 가지 능력을 병렬적으로 향상시킵니다.

4. 실험 결과 (Results)

저자들은 5 개의 수학 추론 벤치마크 (MATH-500, AIME 2024/2025, AMC 2023/2024) 에서 Qwen3-8B 모델을 사용하여 실험을 수행했습니다.

정확도 유지: DCPO 는 기존 GRPO 와 비교하여 추론 정확도 (Accuracy) 를 유지하거나 오히려 향상시켰습니다. (예: AIME24 에서 GRPO 대비 정확도 유지, RLCR 대비 4.3% 향상).
보정 성능 극대화:
- ECE (Expected Calibration Error): 기존 Qwen3-8B 대비 71.6% 감소 (0.435 → 0.128).
- PCE (Positive Calibration Error): 과신 현상을 가장 효과적으로 완화했습니다.
- AUROC: 신뢰도 점수의 판별력이 크게 향상되었습니다.
비교 분석:
- RLCR, CCGPSG 등 기존 결합 방법: 보정은 개선되었으나 정확도가 크게 하락했습니다.
- DCPO: 정확도 하락 없이 보정 성능을 최상으로 달성하여 '정확도 - 보정 트레이드오프'를 해결했습니다.
학습 동역학: DCPO 는 학습 중 그라디언트 노름 (Gradient Norm) 이 더 안정적으로 수렴하며, 과신 분포가 균형을 이룬다는 것을 확인했습니다.

5. 주요 기여 및 의의 (Contributions & Significance)

이론적 발견: RLVR 환경에서 정확도 최적화와 보정 최적화 사이에 존재하는 근본적인 그라디언트 충돌을 최초로 규명하고 수학적으로 증명했습니다.
새로운 프레임워크 (DCPO): 추론과 신뢰도를 구조적, 보상 설계, 최적화 단계에서 분리하는 간단하지만 효과적인 프레임워크를 제안했습니다.
실용적 해결책: 고위험 분야에서 LLM 의 신뢰성 있는 배포를 가능하게 합니다. 모델이 틀린 답을 할 때 이를 인지하고 낮은 신뢰도를 부여하도록 함으로써, 사용자의 의사결정을 지원하고 시스템 리스크를 줄입니다.
하이브리드 감독 신호: 그룹 수준과 인스턴스 수준의 정확도 정보를 결합하여 보정 학습의 분산을 줄이고 안정성을 높이는 방법을 제시했습니다.

결론적으로, 이 논문은 RL 기반 LLM 의 '과신' 문제를 해결하기 위해 단순한 목적 함수 수정을 넘어, **추론과 확신의 최적화 경로를 분리 (Decoupling)**해야 함을 증명하고, 이를 통해 정확도와 신뢰성을 동시에 달성할 수 있는 실용적인 솔루션을 제시했습니다.

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1. 문제: "자신감 과잉"에 걸린 천재 학생

2. 기존 해결책의 실패: "양날의 검"

3. 새로운 해결책 (DCPO): "역할 분리"

4. 또 다른 비법: "소문"과 "현실"의 조화

5. 결론: 왜 이 연구가 중요한가요?

1. 연구 배경 및 문제 정의 (Problem)

2. 이론적 분석 및 통찰 (Theoretical Analysis)

3. 제안 방법: DCPO (Decoupled Calibration Policy Optimization)

4. 실험 결과 (Results)

5. 주요 기여 및 의의 (Contributions & Significance)

유사한 논문

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models