From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

이 논문은 오픈 보카불러리 검출 모델이 알려진 클래스와 유사한 근접 분포 외 (NOOD) 객체를 오분류하거나 원거리 분포 외 (FOOD) 객체를 무시하는 한계를 극복하기 위해, 의사 미지 임베딩과 멀티 스케일 대비 앵커 학습을 통해 미지 객체를 식별하고 점진적으로 학습하는 오픈 월드 객체 검출 프레임워크를 제안하여 자율 주행 및 표준 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시각 언어 모델 (Vision Language Model)"**이라는 똑똑한 AI 에게, 세상 모든 사물을 알아차리고 배우는 능력을 가르치는 방법에 대한 연구입니다.

기존의 AI 는 학교에서 배운 것만 알았지만, 이 연구는 AI 가 학교 밖에서 처음 보는 낯선 사물도 "아, 이건 내가 아는 게 아니야. 새로운 거구나!"라고 깨닫고, 그걸 기억해 내는 방법을 개발했습니다.

이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.


1. 문제: "알고 있는 것"만 보는 AI 의 한계

전통적인 물체 탐지 AI 는 마치 고정된 메뉴판을 가진 식당 주인과 같습니다.

  • 메뉴판에 '햄버거', '피자', '콜라'만 적혀 있다면, 주인은 손님이 '초밥'을 시켜도 "저건 메뉴에 없으니 못 드시겠어요"라고 하거나, 억지로 "아, 이건 햄버거네요"라고 잘못 말해버립니다.
  • 특히 자율주행차처럼 위험한 상황에서는, 길가에 있는 낯선 장애물 (예: 공사 중인 특수 차량) 을 못 보거나 잘못 인식하면 큰 사고로 이어질 수 있습니다.

2. 해결책: "열린 세상 (Open World)"을 위한 두 가지 전략

연구진은 이 문제를 해결하기 위해 AI 에게 두 가지 새로운 능력을 심어주었습니다.

전략 1: "가상의 미스터리 탐정" (Pseudo Unknown Embedding)

  • 비유: AI 가 "모든 사물"이라는 거대한 개념을 가지고 있다고 상상해 보세요. 하지만 이미 알고 있는 '햄버거', '피자'가 이 개념을 다 차지하고 있습니다.
  • 방법: 연구진은 "알고 있는 것들의 평균을 빼서" 새로운 공간을 만들었습니다.
    • "사물 (Object)"이라는 단어의 의미를 가져와서, "햄버거, 피자, 콜라"의 의미를 모두 뺀 나머지 공간을 **"미스터리 (Unknown)"**라고 이름 붙였습니다.
    • 이제 AI 는 새로운 사물을 볼 때, "이건 햄버거랑 비슷해?"라고 묻고, 비슷하지 않으면 바로 **"아! 이건 내가 아는 게 아니라, 미스터리 공간에 있는 새로운 사물이구나!"**라고 판단합니다.
    • 마치 미스터리 소설을 읽을 때, 등장인물들이 모두 알고 있는 범인 목록에 없는 사람이 나오면 "아, 이 사람은 범인 목록에 없으니 새로운 범인일 수도 있겠다"라고 추리하는 것과 같습니다.

전략 2: "멀티스케일 비교대" (Multi-Scale Contrastive Anchor Learning)

  • 비유: AI 가 사물을 볼 때, 멀리서 보면 '개'인지 '고양이'인지 헷갈릴 수 있고, 가까이서 보면 털 색깔까지 다 보입니다. 기존 AI 는 이 거리 (스케일) 에 따라 판단이 흔들려서, 낯선 사물을 아는 사물로 잘못 분류하는 경우가 많았습니다.
  • 방법: 연구진은 **각 사물마다 '기준점 (Anchor)'**을 세워주었습니다.
    • '개'라는 기준점 주위로 '개' 사진들을 아주 빽빽하게 모으고, '고양이'나 '낯선 사물'들은 그 기준점에서 멀리 떨어뜨려 놓습니다.
    • 이제 AI 는 새로운 사물이 들어오면, "이건 '개' 기준점에서 너무 멀리 떨어져 있네? 아니면 '고양이' 기준점에서도 멀어? 그럼 이건 낯선 사물이야!"라고 정확히 구별해냅니다.
    • 마치 학교 운동회에서 각 반 (클래스) 이 자기 자리 (기준점) 에 모여 있는데, 낯선 사람이 들어오면 어느 반 자리에도 속하지 않아서 바로 "저 사람은 우리 반이 아니야!"라고 알아차리는 것과 같습니다.

3. 결과: 잊지 않고 배우는 AI

기존 방법들은 새로운 것을 배우면 예전에 배운 것을 잊어버리는 (망각) 문제가 있었습니다. 하지만 이 연구의 방법은 기존의 지식을 건드리지 않고, 새로운 '기준점'과 '미스터리 공간'만 추가하는 방식으로 학습합니다.

  • 자율주행 시나리오: AI 는 처음에는 '차'와 '사람'만 알고 있었습니다. 그런데 갑자기 '자전거'가 나타나면, "이건 내가 아는 '차'도 '사람'도 아니야. 새로운 사물이네!"라고 발견하고, 다음엔 '자전거'를 알 수 있게 됩니다.
  • 성능: 이 방법은 기존에 가장 잘하던 방법들보다 **낯선 사물을 찾아내는 능력 (Recall)**이 훨씬 뛰어나면서도, 이미 알고 있는 사물을 잘못 분류하는 실수는 크게 줄였습니다.

요약

이 논문은 **"AI 가 세상 모든 것을 다 알 수는 없지만, '내가 모르는 것'을 정확히 알아차리고, 그것을 새로운 지식으로 받아들일 수 있는 방법"**을 제안했습니다.

  • 핵심 아이디어: "모르는 것"을 찾기 위해 가상의 '미스터리 공간'을 만들고, 각 사물마다 '기준점'을 세워 헷갈리지 않게 했다.
  • 실제 효과: 자율주행차처럼 실생활에서 중요한 분야에서, AI 가 낯선 장애물을 놓치지 않고 안전하게 대처할 수 있게 되었습니다.

이 기술은 AI 가 단순히 정해진 답만 찾는 기계가 아니라, 실제 세상처럼 복잡하고 예측 불가능한 환경에서도 유연하게 적응하는 지능으로 발전하는 중요한 디딤돌이 될 것입니다.