Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이 연구가 필요한가요? (열린 세상 vs 닫힌 세상)

전통적인 인공지능 학습은 **'닫힌 세상 (Closed-set)'**에서 일어납니다.

비유: 마치 완벽하게 정리된 도서관에서 일하는 사서 같아요. 책장에는 '역사', '과학', '문학'이라는 딱지가 붙어 있고, 들어오는 모든 책은 이 중 하나에 속한다고 가정합니다.
문제: 하지만 현실은 **'열린 세상 (Open-set)'**입니다. 새로운 도시로 이사 온 탐험가처럼, 우리가 모르는 새로운 책 (새로운 카테고리) 이 갑자기 들어올 수 있습니다.

기존의 '활성 학습 (Active Learning)' 방식은 "어떤 책을 가장 많이 읽어야 할지"를 고를 때, 모든 책이 이미 알고 있는 카테고리라고 믿고 가장 헷갈리는 책을 고릅니다.

결과: 알고 보니 그 책은 우리가 전혀 모르는 '외계어'로 쓰인 책이었습니다. 사서는 이 책을 번역하려고 애를 쓰지만, 결국 시간만 낭비하고 실력은 늘지 않습니다.

2. 기존 방법의 한계: "별도의 감별사"를 고용하는 비효율

기존 연구들은 이 문제를 해결하기 위해 **별도의 '감별사 (Detector)'**를 고용했습니다.

비유: 도서관에 "이 책이 우리 도서관의 책인지, 아니면 외계어 책인지"를 먼저 확인해주는 별도의 보안 요원을 고용하는 것입니다.
단점:
1. 비용이 많이 듭니다: 보안 요원을 따로 훈련시키고 유지해야 하므로 시간과 돈이 많이 듭니다.
2. 무용지물인 정보를 버립니다: 만약 그 '외계어' 책이 실제로는 우리가 몰랐던 **'새로운 언어 (새로운 카테고리)'**였다면? 기존 방법은 그냥 "알 수 없음"이라고 치부하고 버립니다. 하지만 그 책 안에는 우리가 배울 수 있는 새로운 지식의 씨앗이 숨어 있을 수 있습니다.

3. 이 논문의 해결책: E2OAL (효율적이고 강력한 오픈셋 학습)

이 논문은 **"별도의 감별사 없이, 우리가 모르는 것들을 오히려 선생님으로 활용하자!"**라고 제안합니다. 이를 E2OAL이라고 부릅니다.

핵심 아이디어 1: "모르는 것들도 분류해 보자!" (적응형 클래스 추정)

비유: 우리가 모르는 책들이 들어왔을 때, 그냥 "알 수 없음"이라고 처리하지 않고, 내용을 살펴보고 비슷한 것끼리 묶어봅니다.
- "아, 이 책들은 모두 '요리'에 관한 것 같아."
- "저 책들은 '여행'에 관한 것 같아."
기술적 설명: frozen(동결된) 된 AI 의 눈 (CLIP 등) 을 이용해 책들의 내용을 분석하고, 비슷한 것끼리 **자연스럽게 그룹 (클러스터)**을 만듭니다. 이렇게 하면 우리가 몰랐던 새로운 카테고리도 스스로 찾아낼 수 있습니다.

핵심 아이디어 2: "모르는 것들도 선생님으로 쓰자!" (지시적 보정)

비유: 이제 우리가 묶어둔 '요리' 그룹과 '여행' 그룹의 책들을 새로운 선생님으로 삼습니다.
- 기존 방식: "이건 알 수 없음" (단순히 버림).
- 이 방식: "이건 '요리' 선생님, 저건 '여행' 선생님"이라고 가르쳐서, 우리가 이미 알고 있는 '역사'나 '과학' 선생님들의 실력도 함께 키워줍니다.
효과: 모르는 것들을 단순히 배제하는 게 아니라, 그들 사이의 관계를 학습시켜 우리가 아는 것들을 더 정확하게 구분하도록 돕습니다.

핵심 아이디어 3: "질문할 때는 '순수한' 것부터 고르자!" (2 단계 질문 전략)

학습을 위해 인간에게 "이 책이 무슨 책인가요?"라고 물어볼 때 (Annotation), 두 가지 기준을 따릅니다.

순수성 (Purity): "이게 우리가 아는 '역사'나 '과학' 책일 확률이 높은가?" (외계어 책은 제외).
정보량 (Informativeness): "이 책이 우리가 가장 헷갈려하는 부분인가?" (너무 쉬운 책이나 너무 어려운 책은 제외).

비유: 사서가 새로운 책을 고를 때, "우리가 이미 아는 분야 (Known) 에 속할 가능성이 높은 책들"만 먼저 모아서 (1 단계), 그중에서 "가장 헷갈려서 도움이 될 만한 책"을 골라냅니다 (2 단계).
장점: 실수할 확률이 낮은 책들만 골라내므로, 질문하는 횟수 (비용) 는 줄이고, 학습 효과는 극대화됩니다.

4. 요약: 왜 이 방법이 특별한가요?

비용 절감: 별도의 보안 요원 (Detector) 을 고용할 필요가 없습니다. 하나의 시스템으로 모든 일을 처리합니다.
지혜로운 활용: "모르는 것"을 버리지 않고, 그 안에 숨겨진 새로운 지식의 구조를 찾아내어 기존 학습을 돕습니다.
정밀한 선택: "무작위"나 "단순한 확신"이 아니라, 순수함과 정보량을 동시에 고려하여 가장 효율적인 질문을 던집니다.

결론

이 논문은 **"우리가 모르는 것들을 두려워하지 말고, 그 안에서 새로운 패턴을 찾아내어 오히려 우리 지식을 확장하는 데 활용하자"**는 메시지를 전달합니다. 마치 낯선 도시에서 길을 잃었을 때, 단순히 "길을 모른다"고 포기하는 대신, 주변 건물들의 특징을 관찰해 새로운 지도를 그려내고, 그 지도를 통해 더 빠르게 목적지에 도달하는 것과 같습니다.

이 방법은 자율주행, 의료 진단처럼 실수하면 큰일이 나는 분야에서, 새로운 위험 (알 수 없는 질병이나 상황) 을 빠르게 감지하면서도 기존 지식을 더 정확하게 유지하는 데 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

**개방형 활성 학습 (Open-Set Active Learning, OSAL)**은 라벨이 없는 데이터에 기존에 학습된 클래스 (Known classes) 와 이전에 보지 못한 새로운 클래스 (Unknown classes) 가 혼재되어 있는 환경에서, 가장 유익한 샘플을 선택하여 라벨링을 요청하는 문제입니다.

기존 방법의 한계:
- 닫힌 집합 가정 위반: 기존 활성 학습 (AL) 은 모든 미라벨 데이터가 알려진 클래스에 속한다고 가정하지만, 실제 자율주행이나 의료 진단과 같은 안전 필수 (safety-critical) 환경에서는 미확인 클래스가 자주 등장합니다.
- 검출기 의존성: 최근 OSAL 방법들은 Out-of-Distribution (OOD) 검출기를 별도로 훈련하여 미확인 데이터를 걸러내려 하지만, 이는 막대한 훈련 오버헤드를 발생시킵니다.
- 라벨된 'Unknown'의 가치 무시: 라벨링 과정에서 'Unknown'으로 판명된 샘플들을 단순히 버리거나 하나의 클래스로 묶어 처리함으로써, 이 데이터가 기존 클래스 학습을 강화할 수 있는 중요한 지도 신호 (Supervisory signal) 를 놓치고 있습니다.

2. 제안 방법: E2OAL (Methodology)

저자들은 **E2OAL (Effective and Efficient Open-set Active Learning)**을 제안합니다. 이는 별도의 OOD 검출기 없이, 라벨된 'Unknown' 데이터를 효과적으로 활용하여 학습을 강화하고 정확한 쿼리를 수행하는 통합 프레임워크입니다.

핵심 구성 요소

1. 적응형 클래스 추정 (Adaptive Class Estimation)

목표: 라벨된 데이터 (Known + Unknown) 를 통해 미확인 클래스의 잠재적 구조와 수를 자동으로 추정합니다.
방법:
- 고정된 (Frozen) 대비 학습 (Contrastive Learning) 특징 공간 (예: CLIP) 에서 모든 라벨된 샘플을 클러스터링합니다.
- 구조 인식 F1-곱 (Structure-aware F1-product) 목적 함수를 최적화하여 최적의 클러스터 수 ( $\hat{u}$ ) 를 찾습니다. (삼분 탐색 사용)
- 이를 통해 'Unknown' 샘플들을 하나의 덩어리가 아닌, 내부 구조가 있는 여러 클래스로 세분화하여 파악합니다.

2. 디리클레 기반 보정 (Dirichlet-Based Calibration)

목표: 오픈셋 환경에서 신뢰도 (Confidence) 를 정확히 보정하고, Known 클래스와 Unknown 클래스를 구분하는 능력을 향상시킵니다.
방법:
- 보조 헤드 (Auxiliary Head): 추정된 Unknown 클래스 수를 포함하여 $k + \hat{u}$ 개의 클래스를 모델링하는 보조 분류기를 도입합니다.
- 증거 기반 딥러닝 (EDL): Softmax 의 번역 불변성 (Translation invariance) 문제를 해결하기 위해 **디리클레 분포 (Dirichlet Distribution)**를 기반으로 한 보정 로스 (NLL + KL divergence) 를 사용합니다.
- 이를 통해 모델은 낮은 증거 (evidence) 를 가진 샘플에 대해 과신 (Overconfidence) 하지 않도록 조정되며, Known 클래스의 판별력이 강화됩니다.

3. 유연한 정보 - 순도 샘플링 (Flexible Information-Purity Sampling)

목표: Known 클래스일 가능성이 높은 (High Purity) 샘플 중에서 가장 유익한 (High Informativeness) 샘플을 선택합니다.
2 단계 쿼리 전략:
- 1 단계 (순도 기반 후보 풀 구성): 보조 헤드의 로짓 (Logit) 을 기반으로 **Logit-margin 순도 점수 ( $S_{purity}$ $S_{p u r i t y}$ )**를 계산합니다. 이를 통해 Known 클래스일 확률이 높은 샘플들을 선별하여 후보 풀 (Candidate Pool) 을 만듭니다.
  - 적응형 정밀도 제어: 목표 쿼리 정밀도 ( $p^*$ ) 를 달성하기 위해 후보 풀의 크기를 동적으로 조정하며, 이는 추가 하이퍼파라미터 없이 이전 라운드의 관측 정밀도를 기반으로 보정됩니다.
- 2 단계 (정보성 기반 선택): 후보 풀 내에서 **Jensen-Shannon (JS) 발산 기반 정보성 지표 ( $S_{info}$ )**를 계산합니다. 이는 지나치게 확신하거나 불확실한 샘플을 배제하고, '적당한 불확실성'을 가진 유익한 샘플을 우선시합니다.

3. 주요 기여 (Key Contributions)

통합 및 검출기 없는 프레임워크: 별도의 OOD 검출기 훈련 없이 라벨된 Unknown 데이터를 강력한 지도 신호로 전환하여 학습 효율성을 극대화했습니다.
라벨 가이드 클러스터링: 대비 학습 특징 공간 내에서 Unknown 클래스의 잠재 구조를 자동으로 발견하고 추정하는 알고리즘을 제안했습니다.
디리클레 보정 및 로짓 마진: Known 클래스 학습을 강화하고 오픈셋 조건에서 신뢰할 수 있는 신뢰도 보정을 제공하는 보조 헤드와 순도 점수를 개발했습니다.
OSAL 특화 정보성 지표: 불확실성이 너무 높거나 너무 낮은 샘플을 억제하고, 모호하지만 유익한 샘플을 선별하는 새로운 메트릭을 설계했습니다.
유연한 2 단계 선택 전략: 추가 하이퍼파라미터 없이 목표 쿼리 정밀도를 유지하면서 적응적으로 샘플을 선택하는 방식을 제시했습니다.

4. 실험 결과 (Results)

데이터셋: CIFAR-10, CIFAR-100, Tiny-ImageNet 에서 다양한 불일치 비율 (Mismatch ratio, 10%~40%) 로 평가 수행.
성능: E2OAL 은 기존 최첨단 (SOTA) 방법들 (EAOA, BUAL, EOAL 등) 보다 정확도 (Accuracy), 효율성 (Efficiency), 쿼리 정밀도 (Query Precision) 모든 측면에서 일관되게 우월한 성능을 보였습니다.
- 특히 복잡한 데이터셋 (Tiny-ImageNet) 에서 성능 격차가 더 크게 나타났습니다.
효율성: 별도의 검출기 훈련이 필요 없어 훈련 시간이 기존 하이브리드 방법들보다 현저히 짧았으며, Random 샘플링이나 MSP 와 같은 경량 베이스라인과 유사한 훈련 시간을 유지하면서도 높은 정확도를 달성했습니다.
Ablation Study:
- 라벨된 Unknown 데이터를 활용하지 않는 변형 (Ours*) 을 비교했을 때, 이를 활용한 전체 모델이 성능이 더 우수함을 확인했습니다.
- 각 모듈 (클래스 추정, 보정, 순도/정보성 점수) 이 모두 성능 향상에 기여함을 입증했습니다.
- CLIP 대신 MoCo 와 같은 다른 사전 학습 특징 추출기를 사용해도 성능이 크게 변하지 않아 모델의 강건성을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 오픈셋 활성 학습 분야에서 **"라벨된 Unknown 데이터는 버려야 할 노이즈가 아니라, Known 클래스 학습을 강화할 수 있는 귀중한 지도 신호"**라는 관점을 재조명했습니다.

실용성: 별도의 복잡한 검출기 훈련 없이도 높은 정밀도와 효율성을 제공하여, 자율주행, 의료 진단 등 라벨링 비용이 높고 미확인 클래스가 존재하는 실제 세계 응용 분야에 적용하기 매우 적합합니다.
방법론적 혁신: OOD 검출과 활성 학습을 분리된 단계가 아닌, 하나의 통합된 학습 프레임워크로 통합함으로써 계산 비용과 성능 간의 트레이드오프를 성공적으로 해결했습니다.

요약하자면, E2OAL 은 미확인 클래스를 효과적으로 식별하고 활용함으로써, 제한된 라벨링 예산으로 더 강력하고 견고한 분류 모델을 구축하는 새로운 패러다임을 제시합니다.