Conformal Prediction for Long-Tailed Classification

이 논문은 긴 꼬리 분포를 가진 분류 문제에서 기존 방법의 한계를 극복하고, 예측 집단의 크기와 클래스별 커버리지 간의 균형을 이루는 새로운 컨포멀 예측 기법을 제안하고 실증합니다.

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌿 배경: "식물 찾기 앱"과 AI 의 딜레마

상상해 보세요. 여러분이 산책하다가 이상한 식물을 발견하고, 스마트폰 앱에 사진을 찍어 올렸다고 가정해 봅시다.

  • 기존 AI 의 방식: "이건 장미입니다!"라고 단정적으로 말합니다. 하지만 만약 그 식물이 아주 드문 희귀 식물이라면, AI 는 "장미"라고 잘못 추측할 확률이 높습니다.
  • 이론적 이상향: AI 가 "이건 장미일 수도 있고, 국화일 수도 있고, 희귀한 야생화일 수도 있어요"라고 **후보 목록 (Prediction Set)**을 줍니다. 사용자가 목록을 보고 직접 확인하면 되죠.

하지만 여기서 큰 문제가 생깁니다.
세상에는 흔한 식물 (장미, 국화) 은 수천 장의 사진이 있지만, 희귀한 식물 (멸종 위기종) 은 사진이 몇 장뿐입니다.

  • 방법 A (소량 목록): 목록을 짧게 줄이면 (예: 1~2 개), 흔한 식물은 잘 맞지만, 희귀 식물은 절대 목록에 들어오지 않습니다. (사용자가 "아, 이 희귀한 식물도 있구나!"라고 발견할 기회를 놓침)
  • 방법 B (대량 목록): 희귀 식물도 목록에 넣으려면, 목록을 수천 개로 늘려야 합니다. (사용자가 "장미, 국화, ... (중략) ... 희귀식물"이라는 1,000 개 목록을 보고 "아, 이거구나!"라고 찾기엔 너무 귀찮고 비현실적임)

이 논문은 "희귀한 것도 놓치지 않으면서, 목록도 너무 길지 않게" 만드는 두 가지 지혜로운 방법을 제안합니다.


💡 해결책 1: "인기 점수"를 보정하다 (PAS 방법)

비유: "인기 있는 식당 vs 숨은 보석"

기존 AI 는 "장미"처럼 인기 있는 식물을 많이 봤기 때문에, 어떤 식물이든 "아마 장미겠지?"라고 쉽게 추측합니다. 반면, "멸종 위기 식물"은 본 적이 거의 없어서 "이건 장미가 아닐 거야"라고 아예 제외해 버립니다.

이 논문은 "인기 점수 (Prevalence)"를 보정하는 새로운 점수 계산법을 만들었습니다.

  • 기존 방식: "장미"가 10,000 번 나왔으니 점수 100 점, "희귀식물"이 10 번 나왔으니 점수 10 점. -> AI 는 무조건 100 점인 장미를 선택합니다.
  • 새로운 방식 (PAS): "장미는 이미 너무 많으니 점수를 깎아주고, 희귀식물은 본 적이 적으니 점수를 보너스로 올려줘라!"라고 조정합니다.
    • 결과: AI 가 "아, 이건 흔한 장미보다는 희귀한 식물일 확률이 더 높아!"라고 생각하게 됩니다.
    • 효과: 목록은 짧게 유지하되, 희귀한 식물들이 목록에 포함될 확률이 높아집니다. 마치 식당 추천 앱에서 "인기 맛집"만 나열하지 않고, "작지만 보석 같은 숨은 맛집"도 골라주는 것과 같습니다.

💡 해결책 2: "완벽주의"와 "현실주의" 사이에서 타협하기 (INTERP-Q 방법)

비유: "완벽한 검사관"과 "대충 보는 사람" 사이의 중간 지점

  • 완벽주의 (CLASSWISE): "모든 식물, 특히 희귀한 식물도 100% 놓치지 않게 하라!" -> 목록이 수천 개로 폭주합니다. (사용자가 지쳐버림)
  • 현실주의 (STANDARD): "목록은 짧게 하되, 전체적인 정확도만 챙기자." -> 희귀 식물은 목록에서 사라집니다.

이 논문은 이 두 극단 사이를 **선형적으로 연결 (Interpolate)**하는 방법을 제안합니다.

  • 사용자가 "나는 목록이 10 개 정도면 좋지만, 희귀 식물도 좀 들어갔으면 좋겠다"라고 말하면, AI 는 완벽주의와 현실주의의 중간 지점을 찾아줍니다.
  • 마치 볼륨 조절처럼, "목록 크기"와 "희귀 식물 포함 여부" 사이의 균형을 사용자가 직접 조절할 수 있게 해줍니다.

🌟 왜 이것이 중요한가요? (실제 효과)

이 연구는 **식물 분류 (Pl@ntNet)**나 동물 분류 (iNaturalist) 같은 실제 데이터에서 테스트되었습니다.

  1. 멸종 위기 종 보호: 희귀한 식물이 AI 의 목록에 포함될 확률이 크게 높아졌습니다. 이는 과학자들이 멸종 위기 종을 발견하고 보호하는 데 큰 도움이 됩니다.
  2. 사용자 경험 개선: 사용자가 "수천 개의 목록"을 볼 필요 없이, **적당한 크기 (예: 5~10 개)**의 목록에서도 중요한 희귀 종을 찾을 수 있게 되었습니다.
  3. AI 의 붕괴 방지: 만약 AI 가 희귀한 것만 계속 무시하고 흔한 것만 추천하면, 사람들은 그 흔한 것만 찍어 올립니다. 그러면 AI 는 더 이상 희귀한 것을 배우지 못하고 점점 멍청해집니다 (모델 붕괴). 이 방법은 AI 가 다양한 것을 배우도록 돕습니다.

📝 한 줄 요약

"AI 가 무언가를 추측할 때, 흔한 것만 쏙쏙 골라내지 말고, 드문 보석도 놓치지 않으면서 목록도 너무 길지 않게 만들어주는 '지혜로운 필터'를 개발했습니다."

이 기술은 우리가 AI 와 함께 세상을 더 잘 이해하고, 소중한 자연을 지키는 데 큰 역할을 할 것입니다.