Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

이 논문은 VLM 이 생성한 쿼리 기반의 장면 그래프를 구조화된 중간 표현으로 활용하여 LLM 과의 간극을 해소함으로써, 복잡한 시각적 관계 이해와 해석 가능성을 동시에 확보한 제로샷 참조 표현 이해 (REC) 방법인 SGREC 을 제안합니다.

Yike Wu, Necva Bolucu, Stephen Wan, Dadong Wang, Jiahao Xia, Jian Zhang

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SGREC"**이라는 새로운 인공지능 기술을 소개합니다. 이 기술은 사람이 말로 지시하는 대로 이미지 속의 특정 물체를 찾아내는 일을 합니다.

기존의 방법들은 마치 **"눈이 좋은 사람"**처럼 이미지와 글자를 직접 비교해서 찾았지만, 복잡한 상황에서는 헷갈리기 쉽습니다. 반면, SGREC 은 **"유능한 비서"**가 먼저 상황을 정리한 뒤, **"지식豊富な 교수님"**이 그 정리를 보고 정답을 찾아내는 방식입니다.

이 과정을 일상적인 비유로 쉽게 설명해 드릴게요.


🎨 1. 문제 상황: "왼쪽의 빨간 꽃병 찾아줘"

상상해 보세요. 친구가 "왼쪽의 빨간 꽃병 찾아줘"라고 요청합니다.

  • 기존 AI (CLIP 등): 이미지 전체를 훑어보며 "아, 빨간색이 있고, 꽃병 모양이 있네"라고 대략적으로 맞춥니다. 하지만 꽃병이 여러 개 있고, 색깔이 비슷하거나 위치가 애매하면 "어? 이게 빨간 건가?" 하며 헷갈려합니다.
  • SGREC 의 접근: "일단 상황을 정리해 보자!"라고 생각하며 3 단계 과정을 거칩니다.

🕵️‍♂️ 2. SGREC 의 3 단계 마법

1 단계: 유능한 비서 (VLM) 가 '수색대'를 구성합니다.

먼저, AI 는 이미지 속 모든 물체를 스캔합니다. 하지만 모든 것을 다 기억할 필요는 없죠.

  • 친구의 요청 ("왼쪽의 빨간 꽃병") 에서 **'꽃병'**이라는 키워드를 뽑아냅니다.
  • 그리고 이미지 속에서 '꽃병'으로 보이는 것들만 골라냅니다.
  • 이때, 단순히 '꽃병'이라고만 부르는 게 아니라, "아, 이 꽃병은 '왼쪽'에 있고, '빨간색'이고, '꽃이 담겨 있다'는 특징이 있구나"라고 세부 메모를 남깁니다.

비유: 마치 수사관이 사건 현장에 왔을 때, 모든 사람을 다 잡는 게 아니라 용의자 (요청된 물체) 와 관련된 사람만 먼저 선별하고, 그들의 특징 (옷차림, 위치) 을 메모장에 적어두는 것과 같습니다.

2 단계: '상황도 (Scene Graph)'를 그립니다.

이제 선별된 물체들만 가지고 **정교한 지도 (Scene Graph)**를 그립니다.

  • 단순히 "꽃병"이라고 적는 게 아니라, **"꽃병 A 는 꽃병 B 옆에 있고, 꽃병 C 는 꽃병 D 위에 있다"**는 식으로 물체 간의 관계를 연결합니다.
  • 또한, 각 물체에 대한 생생한 설명도 덧붙입니다. (예: "이 꽃병은 꼬불꼬불한 디자인의 붉은색 도자기다")
  • 이 모든 정보를 **구조화된 텍스트 (JSON 형식)**로 정리합니다.

비유: 비서가 친구에게 "왼쪽 꽃병을 찾아줘"라고 할 때, 단순히 "저기 있어요"라고 말하지 않고, **"A 꽃병은 빨간색이고 꽃이 꽂혀 있고, B 꽃병은 그 옆에 있고, C 꽃병은 뒤에 있어요"**라고 아주 상세한 상황 보고서를 작성하는 것과 같습니다.

3 단계: 지식豊富な 교수님 (LLM) 이 정답을 찾습니다.

이제 정리된 '상황 보고서'를 **거대 언어 모델 (LLM)**에게 보여줍니다.

  • 이 교수는 이미지 자체를 보지 않아도, 텍스트로 된 보고서만 보고도 "아, '꼬불꼬불한 디자인'이라고 했으니 이 꽃병이 맞구나!"라고 논리적으로 추론합니다.
  • 그리고 "왜 이걸 골랐는지"에 대한 이유도 설명해 줍니다.

비유: 교수님은 직접 사진을 보지 않아도, 비서가 쓴 "상황 보고서"만 보고도 "아, '꼬불꼬불한 디자인'이라고 했으니 저게 맞네!"라고 논리적으로 정답을 도출합니다. 마치 수사관이 현장 사진을 보지 않고도 증인들의 진술록만 보고 범인을 찾아내는 것과 같습니다.


🌟 왜 이 방법이 특별한가요?

  1. 이해가 쉽습니다 (해석 가능성): 기존 AI 는 "이게 맞아요"라고만 말했지만, SGREC 은 "왜 이걸 골랐는지" (예: "꼬불꼬불한 디자인이니까요") 를 설명해 줍니다. 마치 친구가 "왜 이 꽃병이 빨간 거야?"라고 물으면 이유를 설명해 주는 것과 같습니다.
  2. 복잡한 관계도 잘 풉니다: "왼쪽에서 두 번째 꽃병"이나 "꽃이 있는 꽃병"처럼 복잡한 조건도, 물체 간의 관계를 정리한 '상황도' 덕분에 쉽게 해결합니다.
  3. 학습 없이도 잘합니다 (Zero-shot): 이 기술은 새로운 물체나 새로운 질문을 만나도, 미리 그 물체를 배우지 않아도 논리적으로 추론해서 찾아냅니다. 마치 새로운 도시를 처음 가도 지도와 나침반만 있으면 길을 찾을 수 있는 것과 같습니다.

📊 결론

이 논문은 **"이미지를 직접 보는 것"보다 "이미지를 언어로 정리해서 논리적으로 추론하는 것"**이 더 정확하고 설명 가능한 방법임을 증명했습니다.

마치 유능한 비서가 상황을 정리해 주고, 지혜로운 교수가 그 정리를 바탕으로 정답을 찾아주는 팀워크를 통해, AI 가 인간의 언어 지시를 훨씬 더 똑똑하고 정확하게 이해하게 만든 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →