Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

이 논문은 대규모 언어 모델이 긴 형식의 생성물에서 사실성을 높이기 위해 개별 주장 단위의 불확실성을 추론하고 보정하는 'CURE' 프레임워크를 제안하며, 이를 통해 기존 방법론보다 뛰어난 사실 정확도와 보정 능력을 달성함을 보여줍니다.

Xin Liu, Lu Wang

게시일 2026-04-15
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거짓말쟁이 AI 를 어떻게 '진실한 고백'을 하는 AI 로 바꿀까?"**에 대한 해답을 제시합니다.

대형 언어 모델 (LLM, AI) 은 긴 글을 쓸 때 아주 잘하지만, 가끔은 자신도 모르게 엉뚱한 사실을 마치 100% 확실한 것처럼 자신 있게 말해버리는 '환각 (Hallucination)' 현상을 겪습니다. 마치 친구가 "내 생일, 1 월 1 일이지?"라고 확신하며 말하는데, 사실은 3 월 3 일인 것과 같습니다.

기존의 방법들은 AI 가 틀렸을 때 수정해 주거나 (사후 수정), 틀리지 않게 강제로 훈련시키는 (강화 학습) 방식이었습니다. 하지만 문제는 AI 가 "아, 이거 내가 잘 모르는 거야"라고 스스로 의심하는 법을 배우지 못했다는 점입니다. 그래서 틀린 말이라도 "100% 확실해!"라고 큰 소리로 외치는 경우가 많았습니다.

이 논문에서 제안한 **CURE(큐어)**라는 새로운 방법은 "AI 에게 '자신의 무지'를 인정하고, 각 문장마다 '확신도'를 표시하는 법"을 가르치는 것입니다.


🎭 비유로 설명하는 CURE 의 원리

1. 기존 방식 vs CURE 방식

  • 기존 AI (무작정 자신감 넘치는 연기자):
    무대 위에서 대본을 읽다가 틀린 대사가 나오면, 그걸 모른 채 더 큰 목소리로, 더 당당하게 연기합니다. 관객 (사용자) 은 "이 배우는 정말 완벽해!"라고 생각하지만, 사실은 엉터리 대본을 믿고 있는 것입니다.
  • CURE 방식 (현명한 내레이션):
    이 AI 는 대본을 읽을 때, **"이 부분은 내가 90% 확신해. 근데 이 부분은... 음, 30% 밖에 안 믿겨. 사실 잘 모르겠어."**라고 스스로 중얼거립니다. 그리고 최종 발표할 때, **"내가 잘 모르는 부분은 아예 말하지 않거나, '이건 확실하지 않아'라고 표시해"**라고 사용자에게 알려줍니다.

2. CURE 의 3 단계 훈련 과정 (요리사 비유)

이 AI 를 훈련시키는 과정은 마치 새로운 요리사 (AI) 를 키우는 과정과 같습니다.

  • 1 단계: 레시피 익히기 (가능성 유도)
    먼저 AI 에게 "너는 이제부터 요리를 할 때, 재료를 하나하나 나열하고 그 재료가 신선한지 (신뢰도) 를 매겨야 해"라고 가르칩니다. 엉터리 재료를 섞거나, 레시피를 무시하는 행동을 하지 않도록 기본 규칙을 세웁니다.

    • 예: "소금 (신선도 90%), 소금 (신선도 10%)"처럼 재료를 구분하게 합니다.
  • 2 단계: '자신감'과 '진실' 맞추기 (보정 훈련)
    여기서 중요한 것은 AI 가 자신의 '자신감 (Confidence)'을 '진실 (Correctness)'에 맞게 조정하는 것입니다.

    • 틀린 사실을 말할 때는 "내가 잘 모르겠어 (낮은 점수)"라고 해야 합니다.
    • 맞는 사실을 말할 때는 "내가 확신해 (높은 점수)"라고 해야 합니다.
    • 기존 방식은 "무조건 맞아야 점수"였지만, CURE 는 "틀린 걸로 확신하는 것"을 가장 벌점으로 줍니다. 마치 "틀린 답을 100% 확신하며 말하면 감점, 맞는 답을 50% 확신하며 말하면 감점"처럼, 정확한 판단력을 키우는 것입니다.
  • 3 단계: 요리 완성하기 (사실성 최적화)
    이제 AI 가 "무엇을 알고, 무엇을 모르는지"를 정확히 구분하는 법을 배웠으니, 실제 요리 (답변) 를 더 맛있게 (사실적으로) 만드는 훈련을 합니다. 이때 AI 는 "내가 잘 모르는 재료는 넣지 않겠다"라고 스스로 판단하여, 엉터리 요리를 내놓는 것을 막습니다.

3. 최종 결과: '선택적 발표' (Selective Prediction)

훈련을 마친 AI 는 사용자에게 답변을 줄 때 다음과 같이 행동합니다.

사용자: "데이비드 보위의 생일은 언제야?"

CURE AI:

  • "데이비드 보위는 1947 년 1 월 8 일생이야. (확신도: 98% - 확실함)"
  • "그는 1966 년에 이름을 바꿨어. (확신도: 95% - 확실함)"
  • "그는 2016 년 3 월 3 일 사망했어. (확신도: 30% - 잘 모르겠음, 확인 필요)"

최종 답변: "데이비드 보위는 1947 년 1 월 8 일생이며 1966 년에 이름을 바꿨습니다. (사망 날짜는 제가 잘 모르겠으니 확인해 보세요.)"

이처럼 자신이 확신하지 못하는 부분은 아예 말하지 않거나, "이건 잘 모릅니다"라고 솔직하게 알려줍니다. 사용자가 "이건 믿을 수 있겠네, 저건 확인해 봐야겠다"라고 판단할 수 있게 도와주는 것입니다.


💡 왜 이것이 중요한가요?

기존 AI 는 **"틀린 말이라도 자신 있게 말하는 것"**을 잘했습니다. 하지만 CURE 는 **"진실한 말과 의심스러운 말을 구분해서, 사용자에게 투명하게 보여주는 것"**을 목표로 합니다.

  • 결과: 실험 결과, CURE 를 적용한 AI 는 기존 AI 들보다 사실 오류를 훨씬 적게 범했고, 특히 긴 글 (전기, 보고서 등) 을 쓸 때 정확도가 40% 가까이 향상되었습니다.
  • 핵심 메시지: AI 가 "모르는 것은 모른다"라고 인정하는 법을 배우면, 오히려 더 똑똑하고 신뢰할 수 있는 AI 가 됩니다.

한 줄 요약:

"CURE 는 AI 에게 '무조건 맞다고 믿지 말고, 내 지식의 한계를 인정하고 솔직하게 말하라'고 가르쳐, 엉터리 정보를 줄이고 사용자의 신뢰를 높이는 새로운 훈련법입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →