Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇) 이 '모르는 것'을 얼마나 잘 표현하는가?"**에 대한 문제를 해결하기 위한 새로운 방법을 제안합니다.
기존의 방식은 AI 에게 "이 답이 맞을 확률이 몇 % 인가요?"라고 물으면, AI 가 "80%"라고 딱 잘라 말하게 했습니다. 하지만 이 논문은 **"AI 는 때로는 80% 라고 단정 짓기엔 정보가 부족하거나, 질문 자체가 애매할 수도 있다"**고 지적합니다.
이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.
1. 기존 방식의 문제: "무조건 숫자로 답하는 AI"
기존의 AI 는 마치 시험을 치는 학생처럼 행동합니다.
- 질문: "2019 년 크리켓 월드컵을 개최한 국가는 어디인가요?"
- 기존 AI 의 답변: "영국입니다. 확률 80%!"
하지만 여기서 문제가 생깁니다.
- 애매한 질문: 사실 2019 년 월드컵은 '잉글랜드'와 '웨일스'가 공동 개최했습니다. "영국"이라고만 하면 반은 맞고 반은 틀린 셈인데, AI 는 이 복잡함을 무시하고 숫자 하나만 뱉어냅니다.
- 정보 부족: AI 가 정보를 더 많이 주면 (예: "이전 예시들을 봐주세요") 정답을 더 잘 맞추게 되는데, 기존 AI 는 여전히 "나는 여전히 80% 만 확신해"라고 말하며 변화가 없습니다.
- 자기 모순: AI 가 "A 답을 선택할 확률이 80%"라고 말하면서도, 실제로는 B 답을 선택할 때도 있습니다. 말과 행동이 일치하지 않는 것입니다.
이처럼 AI 가 **"무엇을 모르는지 (불확실성)"**를 제대로 표현하지 못하면, 우리는 AI 의 말을 맹신하다가 큰 실수를 할 수 있습니다.
2. 새로운 방법: "불확실한 불확실성"을 인정하기 (부정확한 확률)
이 논문은 AI 에게 **"단 하나의 숫자 (80%) 가 아니라, '범위'로 답하라"**고 제안합니다. 이를 **'부정확한 확률 (Imprecise Probabilities)'**이라고 합니다.
비유: "날씨 예보관" vs "AI"
- 기존 AI (정확한 확률): "내일 비 올 확률은 **70%**입니다." (정답이 하나라고 가정)
- 새로운 AI (부정확한 확률): "내일 비 올 확률은 30% 에서 70% 사이일 것 같습니다."
이 방식은 두 가지 종류의 불확실성을 구분합니다.
1) 1 차 불확실성 (질문 자체가 애매할 때)
- 비유: "오늘 점심 메뉴는 뭐가 좋을까?"라는 질문은 정답이 여러 개일 수 있습니다 (김치찌개, 라면, 샐러드 모두 가능).
- 해결: AI 는 "이 질문은 정답이 여러 개일 수 있으니, 모든 메뉴가 다 가능성 있어. 나는 이걸 줄일 수 없어"라고 인정합니다. (질문의 애매함)
2) 2 차 불확실성 (AI 가 정보를 더 알면 줄어드는 것)
- 비유: "내일 비 올 확률"을 모를 때, "구름이 많아요"라고만 들으면 확신할 수 없습니다 (범위: 10
90%). 하지만 "위성 사진까지 보니 비가 올 것 같아"라고 정보를 더 주면, 범위가 좁아집니다 (범위: 6070%). - 해결: AI 는 "정보를 더 주면 내 확신 범위가 좁아져요"라고 표현합니다. (지식 부족으로 인한 불확실성)
3. 이 방법이 왜 중요한가? (실생활 예시)
이 논문에서 제안한 방법은 AI 에게 다음과 같은 새로운 질문을 던집니다.
- 기존: "이 답이 맞을 확률은?" → AI: "80%"
- 새로운 (이 논문): "이 답이 맞을 최소 확률은 얼마고, 최대 확률은 얼마야?"
- AI: "최소 20%, 최대 80% 사이일 것 같아요."
이렇게 하면 다음과 같은 이점이 생깁니다.
- 혼란스러운 질문에 대한诚实한 답변: 질문이 애매하면 AI 가 "저는 20%~80% 사이로 생각해요"라고 말하며, "정답이 여러 개일 수 있어요"라고 경고합니다.
- 정보를 주면 더 똑똑해짐: 사용자가 더 많은 예시를 주면, AI 의 "범위 (20
80%)"가 좁아져서 "아, 이제 6070% 사이로 좁혀졌네요"라고 말하며 정답에 가까워진 것을 보여줍니다. - 신뢰할 수 있는 의사결정: 만약 범위가 너무 넓다면 (예: 10%~90%), 우리는 "아, 이 AI 는 아직 잘 모르네. 다른 전문가에게 물어봐야겠다"라고 판단할 수 있습니다.
4. 결론: "모르는 척"하는 것이 더 똑똑한 AI
이 논문의 핵심 메시지는 **"AI 가 무조건 확신을 가진 척 (숫자 하나) 하는 것보다, 자신이 얼마나 모호한지 (범위) 를 솔직하게 말하는 것이 더 안전하고 똑똑하다"**는 것입니다.
마치 날씨 예보에서 "내일 비 올 확률 50%"라고 딱 잘라 말하기보다, "비가 올 수도 있고 안 올 수도 있어요 (확률 범위)"라고 말해주는 것이, 우리가 우산을 챙길지 말지 결정하는 데 더 도움이 되는 것과 같습니다.
이 새로운 방법은 AI 가 자신의 지식의 한계를 솔직하게 인정하게 만들어, 우리가 AI 를 더 신뢰하고, 중요한 결정을 내릴 때 실수를 줄이는 데 도움을 줍니다.