Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

이 논문은 이산적 의사결정 시스템에서 표준 정확도 지표가 놓치는 '확신 있는 오류'를 식별하기 위해 확신과 유효성을 구분하는 '확신 - 유효성 (CVS)' 프레임워크를 제안하고, 모호한 데이터에 대한 모델의 확신 유보가 오히려 필수적인 기능임을 입증합니다.

Datorien L. Anderson

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "정답만 맞으면 되는 건가?" (기존 방식의 한계)

지금까지 우리는 AI 를 평가할 때 **"정답을 몇 개 맞췄는가?" (정확도)**만 보았습니다.
예를 들어, 시험에서 80점을 받은 두 학생이 있다고 칩시다.

  • 학생 A: "이건 모르겠다"라고 솔직하게 답하고, 아는 것만 정확히 맞췄습니다. (80점)
  • 학생 B: "모르겠다"는 말 없이, 모르는 것도 무작위로 찍어서 맞췄습니다. (80점)

기존 방식은 두 학생을 똑같이 '80점'이라고 평가합니다. 하지만 학생 B 는 위험합니다. 모르는 것을 확신 있게 틀린 답을 내놓는 것이기 때문입니다.

이 논문은 **"AI 가 모르는 것을 '모른다'고 인정하는 태도 (확신 없음) 와, 모르는 것을 '안다'고 착각하며 확신 있게 틀리는 태도 (확신 있음) 는 완전히 다르다"**고 말합니다.

2. 해결책: "확신 - 타당성 (CVS)" 진단표

저자는 AI 의 성격을 4 가지로 나누어 진단하는 새로운 표를 만들었습니다.

  1. 확신 + 정답 (CC): "이건 내가 잘 알아! (맞음)" → 최고의 상태
  2. 확신 + 오답 (CI): "이건 내가 잘 알아! (틀림)" → 가장 위험한 상태 (환각)
    • AI 가 모르는 것을 마치 아는 것처럼 확신 있게 틀린 말을 할 때입니다.
  3. 불확실 + 정답 (UC): "어? 아마 맞을 거야? (맞음)" → 괜찮은 상태
  4. 불확실 + 오답 (UI): "어? 모르겠는데? (틀림)" → 합리적인 상태
    • AI 가 "이건 너무 어려워서 모르겠다"라고 솔직하게 인정할 때입니다.

핵심 메시지: AI 가 "모르겠다"고 말하는 것 (UI) 은 실패가 아니라, 지적인 겸손입니다. 진짜 실패는 "모르는데도 확신 있게 틀리는 것 (CI)"입니다.

3. 발견: "83% 의 장벽"은 왜 생길까?

실험 결과, AI 는 Fashion-MNIST (옷 사진) 나 IMDB (영화 리뷰) 같은 데이터에서 정확도가 83% 선에서 멈추는 현상이 반복되었습니다.

  • 기존의 생각: "아, AI 가 83% 까지만 학습할 수 있는 능력이 부족하구나."
  • 이 논문의 발견: "아니야! AI 는 83% 는 구조적으로 명확한 것을 완벽하게 배웠고, 나머지 17% 는 애매모호한 것이라서 '모르겠다'고 거부한 거야."

비유:
옷 사진에서 "바지"와 "치마"는 모양이 확실히 다르니 AI 가 100% 맞춥니다. 하지만 "셔츠", "조끼", "코트"는 모양이 너무 비슷해서 (단순히 소매가 달린 옷) AI 는 "이건 구분이 안 가, 모르겠다"고 손을 듭니다.
AI 가 이 17% 를 강제로 맞추려고 하면, **환각 (Hallucination)**이 발생합니다. 즉, "셔츠"를 "코트"라고 확신 있게 틀리게 됩니다.

4. 위험한 현상: "착한 과적합 (Benign Overfitting)"

여기서 가장 중요한 대목이 나옵니다. 훈련을 계속하면 AI 의 점수는 83% 에서 85%, 86% 로 조금씩 오릅니다. 사람들은 "오, AI 가 더 똑똑해졌네!"라고 기뻐합니다.

하지만 CVS 프레임워크로 보면 끔찍한 일이 벌어집니다.
AI 는 "모르겠다"던 17% 를 억지로 맞추기 시작하면서, "모르겠다"는 태도를 버리고 "안다"는 태도로 변해버립니다.

  • 초기: "이건 모르겠다 (UI)" → 합리적
  • 훈련 후: "이건 코트야! (CI)" → 위험한 환각

점수는 오르는 것 같지만, AI 는 자신이 무엇을 모르는지 잊어버리고, 모르는 것을 확신 있게 틀리는 병에 걸린 것입니다. 이를 저자는 **"착한 과적합"**이라고 부르며, 실제로는 지적 자각 (Self-awareness) 을 잃어버린 상태라고 경고합니다.

5. 게임 비유로 이해하기

이 논문의 아이디어를 게임 개발에 비유하면 더 명확해집니다.

  • 확신 + 정답 (CC): 게임을 기대하고 사서 정말 재미있었다. (완벽)
  • 확신 + 오답 (CI): "이 게임은 액션 게임이야!"라고 광고했는데, 막상 사서 보니 시뮬레이션 게임이었다. → 가장 나쁜 상황. 플레이어는 배신감을 느끼고 환불을 요구합니다. (AI 가 확신 있게 틀린 말)
  • 불확실 + 오답 (UI): "이 게임이 어떤 건지 모르겠는데, 사봤는데 재미없네." → 괜찮은 상황. 플레이어는 "아, 내가 기대를 잘못했구나"라고 인정합니다. (AI 가 모르는 것을 인정)

결론: 게임 개발자 (또는 AI 연구자) 는 점수 (정확도) 만 높이는 게 아니라, 플레이어가 기대한 것과 실제가 일치하게 (CI 를 줄이는 것) 만드는 게 더 중요합니다.

6. 요약 및 결론

이 논문은 우리에게 다음과 같은 교훈을 줍니다.

  1. 정답만 쫓지 마라: AI 가 100% 정답을 맞추기 위해 "모르는 것도 아는 척"하면 위험하다.
  2. "모르겠다"는 것은 나쁜 게 아니다: AI 가 "이건 애매하니까 모르겠다"고 말할 때, 그것이 가장 지적인 순간이다.
  3. 새로운 평가 기준: AI 를 평가할 때는 "얼마나 많이 맞췄는가?"보다 **"틀렸을 때 얼마나 솔직하게 '모른다'고 말하는가?"**를 봐야 한다.

한 줄 요약:

"진짜 똑똑한 AI 는 모든 것을 안다고 착각하는 게 아니라, 자신이 모르는 영역을 정확히 알고 멈출 줄 아는 AI 입니다."

이 논문의 제안은 AI 가 인간의 안전과 신뢰를 위해, 자신의 한계를 솔직하게 인정하는 시스템으로 발전해야 함을 역설합니다.