Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

이 논문은 제한된 라벨 데이터 환경에서 커버리지 안정성을 향상시키기 위해 라벨링되지 않은 데이터의 유사한 의사-라벨 샘플을 기반으로 한 '가장 인접한 이웃 매칭 (NNM)' 점수를 도입하여, 라벨과 라벨 없는 데이터를 모두 활용하는 새로운 준지도 conformal 예측 방법인 SemiCP 를 제안하고 그 이론적 수렴성과 실험적 유효성을 입증합니다.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 주제: "AI 가 "모르겠다"고 말할 때, 얼마나 믿을 수 있을까?"

우리가 AI(예: 의료 진단, 금융 투자) 를 사용할 때 가장 걱정하는 것은 **"이 AI 가 틀렸을 때, 우리가 그걸 모른 채 믿고 따라가는 것"**입니다.

**'합의 예측 (Conformal Prediction)'**이라는 기술은 AI 가 "이것은 A 일 수도 있고, B 일 수도 있어"라고 여러 가지 답을 제시할 때, **"정답이 이 목록 안에 있을 확률이 95% 이상이다"**라고 보장해 주는 시스템입니다. 마치 "이 가방에 들어갈 물건은 95% 확률로 내 안에 있어"라고 보증하는 것과 비슷하죠.

하지만 기존 기술에는 치명적인 약점이 있었습니다.

⚠️ 문제점: "시험지 한 장으로 시험을 치르다"

기존 방식은 AI 의 정확도를 검증하기 위해 **'정답이 있는 데이터 (레이블된 데이터)'**를 따로 떼어내서 시험을 보게 했습니다.

  • 상황: AI 를 개발했는데, 정답이 있는 데이터가 20 개밖에 없습니다.
  • 문제: 20 개로만 시험을 보면, 운이 좋으면 아주 잘하고, 운이 나쁘면 엉망이 됩니다. (불안정함)
  • 결과: "95% 보장"이라고 했지만, 실제로는 80% 만 보장되거나, 반대로 너무 넓은 목록을 주어서 쓸모가 없게 됩니다.

이것은 마치 수험생이 20 문제만 풀어서 국가 시험을 보려고 하는 상황과 같습니다. 결과가 매번 들쑥날쑥해서 믿을 수가 없죠.

💡 해결책: "정답 없는 문제도 함께 풀어보자 (SemiCP)"

저희 연구팀은 **"정답이 없는 데이터 (레이블 없는 데이터)"**도 활용하면 어떨까?라고 생각했습니다.

  • 상황: 정답은 없지만, 문제 자체는 4,000 개나 있습니다.
  • 아이디어: 정답이 있는 20 개 데이터로 '기준점'을 잡고, 나머지 4,000 개 데이터도 함께 분석하면 훨씬 더 안정적인 기준을 세울 수 있지 않을까?

하지만 여기서 함정이 있습니다. "정답이 없는 데이터에 어떻게 점수를 매길까?"

🧩 핵심 기술: "가장 비슷한 친구 찾기 (NNM)"

정답을 모르는 데이터에 점수를 매기는 것은 매우 어렵습니다. 그래서 저희는 **'가장 비슷한 친구 찾기 (Nearest Neighbor Matching, NNM)'**라는 방법을 고안했습니다.

비유로 설명해 드릴게요:

  1. 상황: 여러분은 '정답을 아는 20 명의 학생 (레이블 데이터)'과 '정답을 모르는 4,000 명의 학생 (레이블 없는 데이터)'이 있습니다.
  2. 문제: '정답을 모르는 학생 A'가 어떤 문제를 풀었을 때, 그 답이 맞을지 틀릴지 (불확실성) 점수를 매겨야 합니다.
  3. 기존 방식 (Naive): 학생 A 가 스스로 "내 답이 맞을 거야!"라고 말하면, 그 말을 그대로 믿고 점수를 줍니다. (하지만 학생 A 는 자신이 틀렸을 수도 있다는 걸 모릅니다. 그래서 점수가 너무 낮게 나옵니다.)
  4. 저희 방식 (NNM):
    • 학생 A 가 낸 답 (예상 답안) 을 봅니다.
    • **"아, 이 답을 낸 학생 A 는 정답을 아는 20 명 중 '학생 B'와 가장 비슷하게 답했구나!"**라고 찾습니다.
    • 그리고 학생 B를 확인합니다. 학생 B 는 정답을 알고 있었으니, "학생 B 가 이 문제를 풀었을 때 실제 점수와 예상 점수의 차이"를 알 수 있습니다.
    • 결론: "학생 A 는 학생 B 와 비슷하니까, 학생 B 가 겪었던 '오차'만큼 학생 A 의 점수도 수정해 주자!"라고 계산합니다.

이렇게 하면, 정답을 모르는 데이터도 마치 정답을 아는 데이터처럼 **정확한 점수 (불확실성 지표)**를 받을 수 있게 됩니다.

🚀 결과: "작은 정답 데이터로도 완벽한 예측"

이 방법 (SemiCP) 을 적용한 결과:

  • 안정성: 정답 데이터가 20 개뿐이어도, 예측의 신뢰도가 4,000 개 데이터를 다 쓸 때나 다름없이 매우 안정적이 되었습니다. (기존보다 77% 더 안정적)
  • 효율성: "정답이 이 100 개 중에 있을 거야"라고 넓게 말하던 것을, **"정답이 이 2 개 중에 있을 거야"**라고 딱 잘라 말할 수 있게 되었습니다. (불필요한 목록이 줄어듦)

📝 요약

  1. 문제: AI 의 불확실성을 보장하려면 정답 데이터가 많이 필요한데, 현실에서는 정답 데이터가 부족해서 결과가 들쑥날쑥합니다.
  2. 해결: 정답이 없는 데이터도 활용하되, "가장 비슷한 정답 데이터 친구를 찾아서 그 친구의 경험을 대입하는 (NNM)" 방식을 썼습니다.
  3. 효과: 적은 정답 데이터로도 AI 가 "내 예측이 얼마나 확실한지"를 정확하게 알려주게 되었고, 불필요한 추측을 줄여주었습니다.

이 기술은 의료 진단이나 금융 같은 실수하면 큰일 나는 분야에서 AI 를 더 안전하게 쓸 수 있게 해주는 핵심 열쇠가 될 것입니다.