Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거짓말쟁이 AI 를 어떻게 '진실한 고백'을 하는 AI 로 바꿀까?"**에 대한 해답을 제시합니다.

대형 언어 모델 (LLM, AI) 은 긴 글을 쓸 때 아주 잘하지만, 가끔은 자신도 모르게 엉뚱한 사실을 마치 100% 확실한 것처럼 자신 있게 말해버리는 '환각 (Hallucination)' 현상을 겪습니다. 마치 친구가 "내 생일, 1 월 1 일이지?"라고 확신하며 말하는데, 사실은 3 월 3 일인 것과 같습니다.

기존의 방법들은 AI 가 틀렸을 때 수정해 주거나 (사후 수정), 틀리지 않게 강제로 훈련시키는 (강화 학습) 방식이었습니다. 하지만 문제는 AI 가 "아, 이거 내가 잘 모르는 거야"라고 스스로 의심하는 법을 배우지 못했다는 점입니다. 그래서 틀린 말이라도 "100% 확실해!"라고 큰 소리로 외치는 경우가 많았습니다.

이 논문에서 제안한 **CURE(큐어)**라는 새로운 방법은 "AI 에게 '자신의 무지'를 인정하고, 각 문장마다 '확신도'를 표시하는 법"을 가르치는 것입니다.

🎭 비유로 설명하는 CURE 의 원리

1. 기존 방식 vs CURE 방식

기존 AI (무작정 자신감 넘치는 연기자):
무대 위에서 대본을 읽다가 틀린 대사가 나오면, 그걸 모른 채 더 큰 목소리로, 더 당당하게 연기합니다. 관객 (사용자) 은 "이 배우는 정말 완벽해!"라고 생각하지만, 사실은 엉터리 대본을 믿고 있는 것입니다.
CURE 방식 (현명한 내레이션):
이 AI 는 대본을 읽을 때, **"이 부분은 내가 90% 확신해. 근데 이 부분은... 음, 30% 밖에 안 믿겨. 사실 잘 모르겠어."**라고 스스로 중얼거립니다. 그리고 최종 발표할 때, **"내가 잘 모르는 부분은 아예 말하지 않거나, '이건 확실하지 않아'라고 표시해"**라고 사용자에게 알려줍니다.

2. CURE 의 3 단계 훈련 과정 (요리사 비유)

이 AI 를 훈련시키는 과정은 마치 새로운 요리사 (AI) 를 키우는 과정과 같습니다.

1 단계: 레시피 익히기 (가능성 유도)
먼저 AI 에게 "너는 이제부터 요리를 할 때, 재료를 하나하나 나열하고 그 재료가 신선한지 (신뢰도) 를 매겨야 해"라고 가르칩니다. 엉터리 재료를 섞거나, 레시피를 무시하는 행동을 하지 않도록 기본 규칙을 세웁니다.
- 예: "소금 (신선도 90%), 소금 (신선도 10%)"처럼 재료를 구분하게 합니다.
2 단계: '자신감'과 '진실' 맞추기 (보정 훈련)
여기서 중요한 것은 AI 가 자신의 '자신감 (Confidence)'을 '진실 (Correctness)'에 맞게 조정하는 것입니다.
- 틀린 사실을 말할 때는 "내가 잘 모르겠어 (낮은 점수)"라고 해야 합니다.
- 맞는 사실을 말할 때는 "내가 확신해 (높은 점수)"라고 해야 합니다.
- 기존 방식은 "무조건 맞아야 점수"였지만, CURE 는 "틀린 걸로 확신하는 것"을 가장 벌점으로 줍니다. 마치 "틀린 답을 100% 확신하며 말하면 감점, 맞는 답을 50% 확신하며 말하면 감점"처럼, 정확한 판단력을 키우는 것입니다.
3 단계: 요리 완성하기 (사실성 최적화)
이제 AI 가 "무엇을 알고, 무엇을 모르는지"를 정확히 구분하는 법을 배웠으니, 실제 요리 (답변) 를 더 맛있게 (사실적으로) 만드는 훈련을 합니다. 이때 AI 는 "내가 잘 모르는 재료는 넣지 않겠다"라고 스스로 판단하여, 엉터리 요리를 내놓는 것을 막습니다.

3. 최종 결과: '선택적 발표' (Selective Prediction)

훈련을 마친 AI 는 사용자에게 답변을 줄 때 다음과 같이 행동합니다.

사용자: "데이비드 보위의 생일은 언제야?"

CURE AI:

"데이비드 보위는 1947 년 1 월 8 일생이야. (확신도: 98% - 확실함)"

"그는 1966 년에 이름을 바꿨어. (확신도: 95% - 확실함)"

"그는 2016 년 3 월 3 일 사망했어. (확신도: 30% - 잘 모르겠음, 확인 필요)"

최종 답변: "데이비드 보위는 1947 년 1 월 8 일생이며 1966 년에 이름을 바꿨습니다. (사망 날짜는 제가 잘 모르겠으니 확인해 보세요.)"

이처럼 자신이 확신하지 못하는 부분은 아예 말하지 않거나, "이건 잘 모릅니다"라고 솔직하게 알려줍니다. 사용자가 "이건 믿을 수 있겠네, 저건 확인해 봐야겠다"라고 판단할 수 있게 도와주는 것입니다.

💡 왜 이것이 중요한가요?

기존 AI 는 **"틀린 말이라도 자신 있게 말하는 것"**을 잘했습니다. 하지만 CURE 는 **"진실한 말과 의심스러운 말을 구분해서, 사용자에게 투명하게 보여주는 것"**을 목표로 합니다.

결과: 실험 결과, CURE 를 적용한 AI 는 기존 AI 들보다 사실 오류를 훨씬 적게 범했고, 특히 긴 글 (전기, 보고서 등) 을 쓸 때 정확도가 40% 가까이 향상되었습니다.
핵심 메시지: AI 가 "모르는 것은 모른다"라고 인정하는 법을 배우면, 오히려 더 똑똑하고 신뢰할 수 있는 AI 가 됩니다.

한 줄 요약:

"CURE 는 AI 에게 '무조건 맞다고 믿지 말고, 내 지식의 한계를 인정하고 솔직하게 말하라'고 가르쳐, 엉터리 정보를 줄이고 사용자의 신뢰를 높이는 새로운 훈련법입니다."

Each language version is independently generated for its own context, not a direct translation.

태그 내에서 답변을 구성하며, 각 사실적 주장에 대해 명시적인 불확실성 (신뢰도) 을 언어적으로 표현합니다. 2. **분해 단계 (Decomposition):**` 태그를 통해 응답을 원자적 주장 (Atomic Claims) 과 해당 신뢰도 점수 (Confidence Score, 0~1) 의 쌍으로 구조화합니다.
* 예: "데이비드 보위는 2016 년 3 월 3 일 사망했다 (신뢰도: 0.30)"와 같이, 사실 확인이 어려운 주장에는 낮은 신뢰도를 부여합니다.

2.2 다단계 훈련 파이프라인 (Multi-stage Training Pipeline)

CURE 의 핵심 설계 원칙은 보정 (Calibration) 과 사실성 최적화 (Factuality Optimization) 를 명시적으로 분리 (Decouple) 하는 것입니다. 이를 통해 두 목표 간의 상충 관계를 해결합니다.

1 단계: 실현 가능성 유도 (Feasibility Induction)
- SFT (Supervised Fine-Tuning): 구조화된 형식 (<think>, <decompose>) 과 명시적 신뢰도 추론을 가르칩니다.
- GRPO (Group Relative Policy Optimization): 관련성 (Relevance), 검증 가능성 (Verifiability), 충실성 (Faithfulness) 을 보장하는 제약 조건 하에서 모델을 최적화하여, 모델이 형식을 따르고 검증 가능한 주장만 생성하도록 만듭니다.
2 단계: 보정 최적화 (Calibration Optimization)
- DPO (Direct Preference Optimization): GRPO 를 사용하는 대신 DPO 를 적용합니다.
- 선호도 쌍 구성: 외부 검증 도구 (VeriScore 등) 를 통해 주장의 정답 여부 (Ground Truth) 를 확인하고, 모델의 예측 신뢰도와 실제 정답이 불일치하는 경우를 식별합니다.
- 수정: 잘못된 주장에 높은 신뢰도를 부여하거나 올바른 주장에 낮은 신뢰도를 부여한 경우를 '거부 (Rejected)'로, 신뢰도와 정답이 일치하도록 수정된 경우를 '선호 (Preferred)'로 설정하여 DPO 로 학습합니다. 이는 모델이 정확한 주장에는 높은 신뢰도를, 틀린 주장에는 낮은 신뢰도를 부여하도록 정렬 (Align) 합니다.
3 단계: 사실성 최적화 (Factuality Optimization)
- GRPO (Token-masked Rewards): 보정이 완료된 상태에서 사실성 (Factuality) 을 극대화합니다.
- 마스크된 보상: 보상 함수는 주장의 내용 (Claim tokens) 에만 적용되고, 신뢰도 추론 부분 (Confidence reasoning tokens) 은 마스킹되어 보정된 신뢰도 추정치를 훼손하지 않도록 합니다.

2.3 추론 시 선택적 예측 (Selective Prediction)

학습된 보정된 신뢰도를 활용하여 추론 시 특정 임계값 ( $\tau$ ) 보다 낮은 신뢰도를 가진 주장은 최종 답변에서 제외 (Abstain) 합니다. 이를 통해 사용자에게 불확실한 정보는 제공하지 않거나 명시적으로 표시하여 신뢰도를 높입니다.

3. 주요 기여 (Key Contributions)

주장 수준의 불확실성 모델링: 장형 생성에서 전체 응답이 아닌 개별 주장 (Claim) 단위로 불확실성을 추정하고 보정하는 최초의 프레임워크 중 하나입니다.
보정과 사실성 최적화의 분리 (Decoupling): 기존 연구에서 보정과 사실성 최적화를 동시에 수행할 때 발생하는 과도한 확신 (Overconfidence) 문제를 해결하기 위해, DPO 를 통한 보정과 GRPO 를 통한 사실성 최적화를 단계적으로 분리했습니다.
구조화된 추론 프로토콜: 모델이 불확실성을 명시적으로 표현하고 이를 구조화된 데이터로 변환하는 프로토콜을 제안하여, 선택적 예측과 오류의 정밀한 추적 (Attribution) 을 가능하게 했습니다.

4. 실험 결과 (Results)

FactBench, LongFact, Biography, FactRBench 등 4 가지 장형 사실성 벤치마크에서 실험을 수행했습니다.

사실성 정확도 향상: CURE 는 경쟁 RL 기반 베이스라인 (L2RF 등) 과 비교하여 모든 데이터셋에서 더 높은 사실성 정확도를 달성했습니다.
- Biography 데이터셋에서는 주장 수준의 사실성 정확도가 **39.9%**까지 향상되었습니다.
- FactBench에서는 **9.4%**의 상대적 개선을 보였습니다.
보정 품질 개선:
- AUROC (Area Under the ROC Curve) 지표에서 FactBench 기준 16.0% 증가 (0.541 → 0.667) 를 기록하여, 모델이 올바른 주장과 잘못된 주장을 구분하는 능력이 크게 향상되었음을 입증했습니다.
- ECE(기대 보정 오차) 와 Brier 점수에서도 우수한 성능을 보였습니다.
선택적 예측의 효과: 신뢰도 임계값을 조절하여 불확실한 주장을 제거했을 때, 정확도는 유지되거나 향상되는 반면, Recall 은 적절히 조절되는 Pareto Frontier를 형성했습니다. 이는 정확도와 Recall 간의 트레이드오프를 사용자가 제어할 수 있음을 의미합니다.
일반화 능력: Llama3.1-8B 뿐만 아니라 Qwen3-4B 와 같은 다른 아키텍처에서도 일관된 성능 향상을 보여주었습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 장형 생성에서 할루시네이션을 줄이기 위해서는 단순히 정답성을 높이는 것뿐만 아니라, 모델이 자신의 지식 한계를 인식하고 불확실성을 정량화하는 능력 (Calibration) 이 필수적임을 강조합니다.

기술적 의의: 보정과 사실성 최적화를 분리하는 다단계 훈련 전략은 RL 기반 모델 학습에서 발생하는 과도한 확신 문제를 해결하는 새로운 패러다임을 제시합니다.
실용적 의의: 생성된 답변의 각 사실에 대해 명시적인 신뢰도를 제공함으로써, 사용자는 모델의 답변을 더 투명하게 평가하고 신뢰할 수 있습니다. 특히 의료, 법률 등 고신뢰도가 요구되는 분야에서 모델이 불확실한 정보를 자발적으로 회피 (Abstain) 하도록 하여 시스템의 안전성과 신뢰성을 크게 높일 수 있습니다.

결론적으로, CURE 는 세밀한 불확실성 모델링 (Fine-grained Uncertainty Modeling) 이 더 신뢰할 수 있는 장형 생성을 위한 실현 가능하고 효과적인 경로임을 입증했습니다.

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

🎭 비유로 설명하는 CURE 의 원리

1. 기존 방식 vs CURE 방식

2. CURE 의 3 단계 훈련 과정 (요리사 비유)

3. 최종 결과: '선택적 발표' (Selective Prediction)

💡 왜 이것이 중요한가요?

2.2 다단계 훈련 파이프라인 (Multi-stage Training Pipeline)

2.3 추론 시 선택적 예측 (Selective Prediction)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG