Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 주제: "AI 가 "모르겠다"고 말할 때, 얼마나 믿을 수 있을까?"

우리가 AI(예: 의료 진단, 금융 투자) 를 사용할 때 가장 걱정하는 것은 **"이 AI 가 틀렸을 때, 우리가 그걸 모른 채 믿고 따라가는 것"**입니다.

**'합의 예측 (Conformal Prediction)'**이라는 기술은 AI 가 "이것은 A 일 수도 있고, B 일 수도 있어"라고 여러 가지 답을 제시할 때, **"정답이 이 목록 안에 있을 확률이 95% 이상이다"**라고 보장해 주는 시스템입니다. 마치 "이 가방에 들어갈 물건은 95% 확률로 내 안에 있어"라고 보증하는 것과 비슷하죠.

하지만 기존 기술에는 치명적인 약점이 있었습니다.

⚠️ 문제점: "시험지 한 장으로 시험을 치르다"

기존 방식은 AI 의 정확도를 검증하기 위해 **'정답이 있는 데이터 (레이블된 데이터)'**를 따로 떼어내서 시험을 보게 했습니다.

상황: AI 를 개발했는데, 정답이 있는 데이터가 20 개밖에 없습니다.
문제: 20 개로만 시험을 보면, 운이 좋으면 아주 잘하고, 운이 나쁘면 엉망이 됩니다. (불안정함)
결과: "95% 보장"이라고 했지만, 실제로는 80% 만 보장되거나, 반대로 너무 넓은 목록을 주어서 쓸모가 없게 됩니다.

이것은 마치 수험생이 20 문제만 풀어서 국가 시험을 보려고 하는 상황과 같습니다. 결과가 매번 들쑥날쑥해서 믿을 수가 없죠.

💡 해결책: "정답 없는 문제도 함께 풀어보자 (SemiCP)"

저희 연구팀은 **"정답이 없는 데이터 (레이블 없는 데이터)"**도 활용하면 어떨까?라고 생각했습니다.

상황: 정답은 없지만, 문제 자체는 4,000 개나 있습니다.
아이디어: 정답이 있는 20 개 데이터로 '기준점'을 잡고, 나머지 4,000 개 데이터도 함께 분석하면 훨씬 더 안정적인 기준을 세울 수 있지 않을까?

하지만 여기서 함정이 있습니다. "정답이 없는 데이터에 어떻게 점수를 매길까?"

🧩 핵심 기술: "가장 비슷한 친구 찾기 (NNM)"

정답을 모르는 데이터에 점수를 매기는 것은 매우 어렵습니다. 그래서 저희는 **'가장 비슷한 친구 찾기 (Nearest Neighbor Matching, NNM)'**라는 방법을 고안했습니다.

비유로 설명해 드릴게요:

상황: 여러분은 '정답을 아는 20 명의 학생 (레이블 데이터)'과 '정답을 모르는 4,000 명의 학생 (레이블 없는 데이터)'이 있습니다.
문제: '정답을 모르는 학생 A'가 어떤 문제를 풀었을 때, 그 답이 맞을지 틀릴지 (불확실성) 점수를 매겨야 합니다.
기존 방식 (Naive): 학생 A 가 스스로 "내 답이 맞을 거야!"라고 말하면, 그 말을 그대로 믿고 점수를 줍니다. (하지만 학생 A 는 자신이 틀렸을 수도 있다는 걸 모릅니다. 그래서 점수가 너무 낮게 나옵니다.)
저희 방식 (NNM):
- 학생 A 가 낸 답 (예상 답안) 을 봅니다.
- **"아, 이 답을 낸 학생 A 는 정답을 아는 20 명 중 '학생 B'와 가장 비슷하게 답했구나!"**라고 찾습니다.
- 그리고 학생 B를 확인합니다. 학생 B 는 정답을 알고 있었으니, "학생 B 가 이 문제를 풀었을 때 실제 점수와 예상 점수의 차이"를 알 수 있습니다.
- 결론: "학생 A 는 학생 B 와 비슷하니까, 학생 B 가 겪었던 '오차'만큼 학생 A 의 점수도 수정해 주자!"라고 계산합니다.

이렇게 하면, 정답을 모르는 데이터도 마치 정답을 아는 데이터처럼 **정확한 점수 (불확실성 지표)**를 받을 수 있게 됩니다.

🚀 결과: "작은 정답 데이터로도 완벽한 예측"

이 방법 (SemiCP) 을 적용한 결과:

안정성: 정답 데이터가 20 개뿐이어도, 예측의 신뢰도가 4,000 개 데이터를 다 쓸 때나 다름없이 매우 안정적이 되었습니다. (기존보다 77% 더 안정적)
효율성: "정답이 이 100 개 중에 있을 거야"라고 넓게 말하던 것을, **"정답이 이 2 개 중에 있을 거야"**라고 딱 잘라 말할 수 있게 되었습니다. (불필요한 목록이 줄어듦)

📝 요약

문제: AI 의 불확실성을 보장하려면 정답 데이터가 많이 필요한데, 현실에서는 정답 데이터가 부족해서 결과가 들쑥날쑥합니다.
해결: 정답이 없는 데이터도 활용하되, "가장 비슷한 정답 데이터 친구를 찾아서 그 친구의 경험을 대입하는 (NNM)" 방식을 썼습니다.
효과: 적은 정답 데이터로도 AI 가 "내 예측이 얼마나 확실한지"를 정확하게 알려주게 되었고, 불필요한 추측을 줄여주었습니다.

이 기술은 의료 진단이나 금융 같은 실수하면 큰일 나는 분야에서 AI 를 더 안전하게 쓸 수 있게 해주는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

합동 예측 (Conformal Prediction, CP) 은 기계학습 모델의 불확실성을 정량화하고, 특정 신뢰 수준 (예: 95%) 을 갖는 예측 집합 (prediction set) 을 생성하는 강력한 프레임워크입니다. 특히 Split Conformal Prediction은 레이블이 있는 검증 데이터 (calibration set) 를 사용하여 예측 임계값을 조정합니다.

그러나 실제 응용 환경 (의료, 금융 등) 에서는 레이블이 있는 데이터가 매우 제한적인 경우가 많습니다.

주요 문제: 레이블이 적은 검증 데이터만 사용할 경우, 실행마다 커버리지 (실제 정답이 예측 집합에 포함될 확률) 가 불안정해집니다.
결과: 목표 커버리지 (예: 90%) 를 달성하지 못하거나 (under-coverage), 불필요하게 큰 예측 집합이 생성되어 (over-coverage) 예측의 효율성이 떨어집니다.
기존 접근법의 한계: 기존 연구들은 검증 데이터 보간이나 수정된 p-value 등을 제안했으나, 이는 휴리스틱하거나 유한 샘플 보장을 제공하지 못하며, 레이블이 없는 데이터 (Unlabeled Data) 를 활용하여 검증 과정을 개선하려는 시도는 부족했습니다.

2. 제안 방법론 (Methodology)

저자들은 SemiCP (Semi-Supervised Conformal Prediction) 라는 새로운 패러다임을 제안합니다. 이는 레이블 데이터와 대량의 레이블 없는 데이터를 모두 활용하여 검증 (calibration) 과정을 수행하는 방법입니다.

핵심 구성 요소:

준지도 합동 예측 (SemiCP) 프레임워크:
- 검증 세트를 레이블 데이터 ( $n$ 개) 와 레이블 없는 데이터 ( $N$ 개) 의 합으로 구성합니다.
- 레이블 없는 데이터에 대한 불일치 점수 (Nonconformity Score) 를 추정하여 전체 검증 세트를 확장함으로써 임계값 추정의 안정성을 높입니다.
최근접 매칭 점수 (Nearest Neighbor Matching, NNM):
- 레이블 없는 데이터의 정답 레이블을 알 수 없으므로, 기존 점수 함수를 직접 적용할 경우 편향 (bias) 이 발생합니다. 이를 해결하기 위해 NNM을 도입했습니다.
- 작동 원리:
  1. 모델이 예측한 의사 레이블 (Pseudo-label) 을 사용하여 레이블 없는 데이터의 '의사 불일치 점수'를 계산합니다.
  2. 이 의사 점수와 가장 유사한 레이블이 있는 데이터를 찾습니다 (최근접 매칭).
  3. 매칭된 레이블 데이터의 실제 불일치 점수와 의사 불일치 점수의 차이 (편향, $\Delta$ ) 를 계산합니다.
  4. 이 편향을 레이블 없는 데이터의 의사 점수에 보정하여 NNM 점수를 생성합니다.
- 수식: $\tilde{S}_{nnm}(\tilde{x}) = S(\tilde{x}, \hat{y}) + [S(x_j, y_j) - S(x_j, \hat{y}_j)]$ $\tilde{S}_{nnm} (\tilde{x}) = S (\tilde{x}, \overset{y}{^}) + [S (x_{j}, y_{j}) - S (x_{j}, \overset{y}{^}_{j})]$
  - 여기서 $x_j$ 는 $\tilde{x}$ 와 가장 유사한 점수를 가진 레이블 데이터입니다.
이론적 보장:
- NNM 점수를 사용하면 레이블 없는 데이터의 불일치 점수 분포가 실제 분포에 점근적으로 수렴함을 증명했습니다.
- 평균 커버리지 갭 (Coverage Gap) 이 레이블 없는 데이터 수 $N$ 에 대해 $O(1/\sqrt{N})$ 의 속도로 감소함을 이론적으로 보였습니다. 즉, 레이블 없는 데이터가 많을수록 예측이 안정화됩니다.

3. 주요 기여 (Key Contributions)

SemiCP 패러다임 도입: 제한된 레이블 데이터 환경에서 안정적이고 효율적인 합동 예측을 위해 레이블 없는 데이터를 활용하는 최초의 체계적인 방법론을 제안했습니다.
NNM 점수 함수 개발: 의사 레이블의 편향을 보정하기 위한 '최근접 매칭' 기법을 고안하여, 레이블 없는 데이터의 불일치 점수를 정확하게 추정할 수 있게 했습니다.
이론적 분석: 레이블 없는 데이터 추가가 평균 커버리지 갭을 줄이고 CP 의 안정성을 향상시킨다는 것을 수학적으로 증명했습니다.
광범위한 실험 검증: 다양한 데이터셋 (CIFAR-10, CIFAR-100, ImageNet) 과 모델 아키텍처 (ResNet, ViT 등) 에서의 유효성을 입증했습니다.

4. 실험 결과 (Results)

실험은 CIFAR-10, CIFAR-100, ImageNet 데이터셋에서 수행되었으며, 주요 결과는 다음과 같습니다.

안정성 및 효율성 향상:
- 레이블 데이터가 20 개뿐일 때, 4000 개의 레이블 없는 데이터를 추가한 SemiCP 는 기존 Split CP 대비 평균 커버리지 갭을 최대 77% 감소시켰습니다.
- 예측 집합의 크기 (Set Size) 도 줄어든 것으로 나타나, 불확실성 정량화의 효율성이 크게 개선되었습니다.
조건부 합동 예측 (Conditional CP) 적용:
- 클래스별 또는 그룹별 조건부 커버리지 보장에서도 SemiCP 가 기존 방법보다 우수한 성능을 보였습니다.
다른 방법론과의 융합:
- Interpolation(보간법) 이나 ClusterCP 와 같은 기존 CP 개선 기법과 결합했을 때, 추가적인 성능 향상을 보였습니다.
모델 아키텍처 무관성:
- ResNet, ViT 등 다양한 모델 구조에서 일관된 성능 개선을 보여주어 방법론의 강건성 (Robustness) 을 입증했습니다.
오류 사례 분석:
- 의사 레이블의 정확도가 매우 낮은 경우 (Top-1 accuracy < 0.7) 에는 성능 향상이 제한적일 수 있음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 연구는 데이터가 부족한 상황 (Data-scarce) 에서 합동 예측의 실용성을 크게 높였습니다.

비용 효율성: 추가적인 레이블링 비용 없이 기존에 존재하는 레이블 없는 데이터를 활용하여 모델의 신뢰도를 높일 수 있습니다.
실무 적용성: 의료 진단이나 금융 리스크 관리와 같이 오작동 시 치명적인 결과를 초래할 수 있는 분야에서, 예측의 불확실성을 안정적으로 관리할 수 있는 도구를 제공합니다.
미래 연구 방향: 준지도 학습과 합동 예측의 결합에 대한 새로운 연구 방향을 제시하며, 레이블 없는 데이터의 잠재력을 CP 분야에서 처음으로 체계적으로 규명했다는 점에서 의의가 큽니다.

요약하자면, SemiCP는 레이블 없는 데이터를 지능적으로 활용하여 레이블 데이터 부족으로 인한 합동 예측의 불안정성을 해결하고, 더 작고 정확한 예측 집합을 생성하는 혁신적인 방법론입니다.

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

🎯 핵심 주제: "AI 가 "모르겠다"고 말할 때, 얼마나 믿을 수 있을까?"

⚠️ 문제점: "시험지 한 장으로 시험을 치르다"

💡 해결책: "정답 없는 문제도 함께 풀어보자 (SemiCP)"

🧩 핵심 기술: "가장 비슷한 친구 찾기 (NNM)"

🚀 결과: "작은 정답 데이터로도 완벽한 예측"

📝 요약

1. 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

핵심 구성 요소:

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models