Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

이 논문은 레이블이 지정된 미지 클래스를 활용하여 기존 오픈셋 활성 학습의 한계를 극복하고, 검출기 없이도 높은 정확도와 효율성을 달성하는 통합 프레임워크인 E2^2OAL 을 제안합니다.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이 연구가 필요한가요? (열린 세상 vs 닫힌 세상)

전통적인 인공지능 학습은 **'닫힌 세상 (Closed-set)'**에서 일어납니다.

  • 비유: 마치 완벽하게 정리된 도서관에서 일하는 사서 같아요. 책장에는 '역사', '과학', '문학'이라는 딱지가 붙어 있고, 들어오는 모든 책은 이 중 하나에 속한다고 가정합니다.
  • 문제: 하지만 현실은 **'열린 세상 (Open-set)'**입니다. 새로운 도시로 이사 온 탐험가처럼, 우리가 모르는 새로운 책 (새로운 카테고리) 이 갑자기 들어올 수 있습니다.

기존의 '활성 학습 (Active Learning)' 방식은 "어떤 책을 가장 많이 읽어야 할지"를 고를 때, 모든 책이 이미 알고 있는 카테고리라고 믿고 가장 헷갈리는 책을 고릅니다.

  • 결과: 알고 보니 그 책은 우리가 전혀 모르는 '외계어'로 쓰인 책이었습니다. 사서는 이 책을 번역하려고 애를 쓰지만, 결국 시간만 낭비하고 실력은 늘지 않습니다.

2. 기존 방법의 한계: "별도의 감별사"를 고용하는 비효율

기존 연구들은 이 문제를 해결하기 위해 **별도의 '감별사 (Detector)'**를 고용했습니다.

  • 비유: 도서관에 "이 책이 우리 도서관의 책인지, 아니면 외계어 책인지"를 먼저 확인해주는 별도의 보안 요원을 고용하는 것입니다.
  • 단점:
    1. 비용이 많이 듭니다: 보안 요원을 따로 훈련시키고 유지해야 하므로 시간과 돈이 많이 듭니다.
    2. 무용지물인 정보를 버립니다: 만약 그 '외계어' 책이 실제로는 우리가 몰랐던 **'새로운 언어 (새로운 카테고리)'**였다면? 기존 방법은 그냥 "알 수 없음"이라고 치부하고 버립니다. 하지만 그 책 안에는 우리가 배울 수 있는 새로운 지식의 씨앗이 숨어 있을 수 있습니다.

3. 이 논문의 해결책: E2OAL (효율적이고 강력한 오픈셋 학습)

이 논문은 **"별도의 감별사 없이, 우리가 모르는 것들을 오히려 선생님으로 활용하자!"**라고 제안합니다. 이를 E2OAL이라고 부릅니다.

핵심 아이디어 1: "모르는 것들도 분류해 보자!" (적응형 클래스 추정)

  • 비유: 우리가 모르는 책들이 들어왔을 때, 그냥 "알 수 없음"이라고 처리하지 않고, 내용을 살펴보고 비슷한 것끼리 묶어봅니다.
    • "아, 이 책들은 모두 '요리'에 관한 것 같아."
    • "저 책들은 '여행'에 관한 것 같아."
  • 기술적 설명: frozen(동결된) 된 AI 의 눈 (CLIP 등) 을 이용해 책들의 내용을 분석하고, 비슷한 것끼리 **자연스럽게 그룹 (클러스터)**을 만듭니다. 이렇게 하면 우리가 몰랐던 새로운 카테고리도 스스로 찾아낼 수 있습니다.

핵심 아이디어 2: "모르는 것들도 선생님으로 쓰자!" (지시적 보정)

  • 비유: 이제 우리가 묶어둔 '요리' 그룹과 '여행' 그룹의 책들을 새로운 선생님으로 삼습니다.
    • 기존 방식: "이건 알 수 없음" (단순히 버림).
    • 이 방식: "이건 '요리' 선생님, 저건 '여행' 선생님"이라고 가르쳐서, 우리가 이미 알고 있는 '역사'나 '과학' 선생님들의 실력도 함께 키워줍니다.
  • 효과: 모르는 것들을 단순히 배제하는 게 아니라, 그들 사이의 관계를 학습시켜 우리가 아는 것들을 더 정확하게 구분하도록 돕습니다.

핵심 아이디어 3: "질문할 때는 '순수한' 것부터 고르자!" (2 단계 질문 전략)

학습을 위해 인간에게 "이 책이 무슨 책인가요?"라고 물어볼 때 (Annotation), 두 가지 기준을 따릅니다.

  1. 순수성 (Purity): "이게 우리가 아는 '역사'나 '과학' 책일 확률이 높은가?" (외계어 책은 제외).
  2. 정보량 (Informativeness): "이 책이 우리가 가장 헷갈려하는 부분인가?" (너무 쉬운 책이나 너무 어려운 책은 제외).
  • 비유: 사서가 새로운 책을 고를 때, "우리가 이미 아는 분야 (Known) 에 속할 가능성이 높은 책들"만 먼저 모아서 (1 단계), 그중에서 "가장 헷갈려서 도움이 될 만한 책"을 골라냅니다 (2 단계).
  • 장점: 실수할 확률이 낮은 책들만 골라내므로, 질문하는 횟수 (비용) 는 줄이고, 학습 효과는 극대화됩니다.

4. 요약: 왜 이 방법이 특별한가요?

  1. 비용 절감: 별도의 보안 요원 (Detector) 을 고용할 필요가 없습니다. 하나의 시스템으로 모든 일을 처리합니다.
  2. 지혜로운 활용: "모르는 것"을 버리지 않고, 그 안에 숨겨진 새로운 지식의 구조를 찾아내어 기존 학습을 돕습니다.
  3. 정밀한 선택: "무작위"나 "단순한 확신"이 아니라, 순수함과 정보량을 동시에 고려하여 가장 효율적인 질문을 던집니다.

결론

이 논문은 **"우리가 모르는 것들을 두려워하지 말고, 그 안에서 새로운 패턴을 찾아내어 오히려 우리 지식을 확장하는 데 활용하자"**는 메시지를 전달합니다. 마치 낯선 도시에서 길을 잃었을 때, 단순히 "길을 모른다"고 포기하는 대신, 주변 건물들의 특징을 관찰해 새로운 지도를 그려내고, 그 지도를 통해 더 빠르게 목적지에 도달하는 것과 같습니다.

이 방법은 자율주행, 의료 진단처럼 실수하면 큰일이 나는 분야에서, 새로운 위험 (알 수 없는 질병이나 상황) 을 빠르게 감지하면서도 기존 지식을 더 정확하게 유지하는 데 큰 도움을 줄 것으로 기대됩니다.