Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

이 논문은 기존에 학습된 개념과 유사한 의미의 미학습 개념 간의 구조적 일관성을 활용하여, 가시적 개념에서 비가시적 개념으로의 일반화를 가능하게 하는 '구조 인식 프롬프트 적응 (SPA)' 방법을 제안하여 개방형 어휘 구성 제로샷 학습의 성능을 크게 향상시킵니다.

Yihang Duan, Jiong Wang, Pengpeng Zeng, Ji Zhang, Lei Zhao, Chong Wang, Jingkuan Song, Lianli Gao

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 이야기: "비슷한 걸로 미루어 추측하는 능력"

1. 문제 상황: AI 는 '익숙한 것'만 잘 알아요
지금까지의 AI(특히 이미지 인식 AI) 는 훈련할 때 본 적이 있는 조합만 잘 알아냈습니다.

  • 예시: AI 가 '사과 (Object)'와 '익은 (Attribute)'을 배웠다면, '익은 사과'는 잘 맞힙니다.
  • 하지만: 훈련 데이터에 '감자 (Object)'와 '익은 (Attribute)'이 없다면, AI 는 '익은 감자'를 못 봅니다. 마치 "내가 사과만 익은 걸 본 적 있는데, 감자가 익을 수 있다는 걸 어떻게 알아?"라고 생각하는 것과 같습니다.

2. 인간의 지혜: "비슷한 걸로 유추하다"
우리는 새로운 것을 볼 때, 비슷한 기존 경험을 떠올려 이해합니다.

  • "젖은 (Wet)"이라는 단어를 모른다면, "축축한 (Damp)"이라는 단어를 떠올려 의미를 짐작합니다.
  • "재킷 (Jacket)"을 처음 보더라도, 이미 아는 "셔츠 (Shirt)"와 비슷하니까 옷이라고 추측합니다.

이 논문은 **"AI 도 인간처럼, 비슷한 개념끼리 모여 있는 '구조'를 이용하면 새로운 것을 배울 수 있다"**는 아이디어를 제안합니다.


🛠️ 해결책: SPA (구조 인식 프롬프트 적응)

이 논문에서 제안한 SPA라는 방법은 크게 두 단계로 이루어집니다. 마치 명품 가게의 매니저가 새로운 상품을 소개할 때 기존 상품과 비교해 설명하는 것과 같습니다.

1 단계: 훈련 중 - "구조를 망치지 않게 조심하기" (SCL)

  • 상황: AI 를 훈련시킬 때, 새로운 데이터를 많이 주면 AI 가 기존에 알고 있던 '사과'와 '감자'의 관계가 뭉개져 버릴 수 있습니다. (예: "사과"와 "감자"가 완전히 다른 별이 되어버리는 것)
  • 해결: **SCL(구조 일관성 손실)**이라는 규칙을 둡니다.
    • 비유: "너는 새로운 것을 배우더라도, '사과'와 '배'는 여전히 과일 가게 진열대에서 옆에 있어야 해. '옷'과 '신발'은 옷가게와 신발가게에 따로 있어야 해."라고 AI 에게 경고하는 것입니다.
    • 효과: AI 가 새로운 것을 배우면서도, 기존에 알고 있던 개념들 사이의 **친밀한 관계 (구조)**를 유지하게 됩니다.

2 단계: 시험 (추론) 중 - "비슷한 친구를 찾아서 따라가기" (SAS)

  • 상황: 이제 AI 가 훈련받지 않은 '익은 감자'를 만났습니다. AI 는 '감자'와 '익은'을 본 적이 없습니다.
  • 해결: **SAS(구조 유도 적응 전략)**를 사용합니다.
    • 비유: AI 는 "아, '익은 감자'는 훈련받지 않았지만, '익은 사과'와 '익은 복숭아'를 배웠어. '감자'는 '사과'나 '복숭아'와 비슷한 과일이니까, '익은 사과'가 어떻게 변했는지 그 패턴을 '익은 감자'에게도 적용해 보자!"라고 생각합니다.
    • 작동 원리: AI 는 훈련된 '익은 사과'의 변화 패턴을 보고, 그 패턴을 '익은 감자'에게도 **유사한 친구 (Top-K 이웃)**를 찾아서 대입해 줍니다.
    • 결과: AI 는 직접 본 적이 없어도, 비슷한 개념의 경험을 바탕으로 새로운 조합을 정확히 맞힙니다.

🌟 이 방법의 장점 (왜 특별한가요?)

  1. 플러그 앤 플레이 (Plug-and-Play):
    • 이 방법은 기존에 쓰이던 AI 모델에 별도의 큰 수술 없이 쉽게 끼워 넣을 수 있습니다. 마치 스마트폰에 새로운 앱을 설치하듯 간단합니다.
  2. 효율성:
    • AI 의 두뇌 (모델 전체) 를 다시 처음부터 가르치는 게 아니라, 작은 메모리만 추가해서 성능을 극적으로 높입니다.
  3. 성능:
    • 실험 결과, 기존에 전혀 보지 못한 '새로운 사물 + 새로운 특징' 조합에서도 성능이 50% 이상이나 향상되었습니다. (예: '썩은 구두', '부러진 의자' 같은 낯선 조합을 잘 알아맞힘)

📝 한 줄 요약

"AI 가 새로운 것을 배울 때, 기존에 알고 있는 비슷한 개념들의 '친구 관계 (구조)'를 이용해서 유추하게 만들어주면, 훨씬 더 똑똑하고 유연하게 변한다!"

이 연구는 AI 가 인간의 학습 방식처럼 유추와 연결을 통해 더 넓은 세상을 이해할 수 있게 하는 중요한 한 걸음입니다.