Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SGREC"**이라는 새로운 인공지능 기술을 소개합니다. 이 기술은 사람이 말로 지시하는 대로 이미지 속의 특정 물체를 찾아내는 일을 합니다.

기존의 방법들은 마치 **"눈이 좋은 사람"**처럼 이미지와 글자를 직접 비교해서 찾았지만, 복잡한 상황에서는 헷갈리기 쉽습니다. 반면, SGREC 은 **"유능한 비서"**가 먼저 상황을 정리한 뒤, **"지식豊富な 교수님"**이 그 정리를 보고 정답을 찾아내는 방식입니다.

이 과정을 일상적인 비유로 쉽게 설명해 드릴게요.

🎨 1. 문제 상황: "왼쪽의 빨간 꽃병 찾아줘"

상상해 보세요. 친구가 "왼쪽의 빨간 꽃병 찾아줘"라고 요청합니다.

기존 AI (CLIP 등): 이미지 전체를 훑어보며 "아, 빨간색이 있고, 꽃병 모양이 있네"라고 대략적으로 맞춥니다. 하지만 꽃병이 여러 개 있고, 색깔이 비슷하거나 위치가 애매하면 "어? 이게 빨간 건가?" 하며 헷갈려합니다.
SGREC 의 접근: "일단 상황을 정리해 보자!"라고 생각하며 3 단계 과정을 거칩니다.

🕵️‍♂️ 2. SGREC 의 3 단계 마법

1 단계: 유능한 비서 (VLM) 가 '수색대'를 구성합니다.

먼저, AI 는 이미지 속 모든 물체를 스캔합니다. 하지만 모든 것을 다 기억할 필요는 없죠.

친구의 요청 ("왼쪽의 빨간 꽃병") 에서 **'꽃병'**이라는 키워드를 뽑아냅니다.
그리고 이미지 속에서 '꽃병'으로 보이는 것들만 골라냅니다.
이때, 단순히 '꽃병'이라고만 부르는 게 아니라, "아, 이 꽃병은 '왼쪽'에 있고, '빨간색'이고, '꽃이 담겨 있다'는 특징이 있구나"라고 세부 메모를 남깁니다.

비유: 마치 수사관이 사건 현장에 왔을 때, 모든 사람을 다 잡는 게 아니라 용의자 (요청된 물체) 와 관련된 사람만 먼저 선별하고, 그들의 특징 (옷차림, 위치) 을 메모장에 적어두는 것과 같습니다.

2 단계: '상황도 (Scene Graph)'를 그립니다.

이제 선별된 물체들만 가지고 **정교한 지도 (Scene Graph)**를 그립니다.

단순히 "꽃병"이라고 적는 게 아니라, **"꽃병 A 는 꽃병 B 옆에 있고, 꽃병 C 는 꽃병 D 위에 있다"**는 식으로 물체 간의 관계를 연결합니다.
또한, 각 물체에 대한 생생한 설명도 덧붙입니다. (예: "이 꽃병은 꼬불꼬불한 디자인의 붉은색 도자기다")
이 모든 정보를 **구조화된 텍스트 (JSON 형식)**로 정리합니다.

비유: 비서가 친구에게 "왼쪽 꽃병을 찾아줘"라고 할 때, 단순히 "저기 있어요"라고 말하지 않고, **"A 꽃병은 빨간색이고 꽃이 꽂혀 있고, B 꽃병은 그 옆에 있고, C 꽃병은 뒤에 있어요"**라고 아주 상세한 상황 보고서를 작성하는 것과 같습니다.

3 단계: 지식豊富な 교수님 (LLM) 이 정답을 찾습니다.

이제 정리된 '상황 보고서'를 **거대 언어 모델 (LLM)**에게 보여줍니다.

이 교수는 이미지 자체를 보지 않아도, 텍스트로 된 보고서만 보고도 "아, '꼬불꼬불한 디자인'이라고 했으니 이 꽃병이 맞구나!"라고 논리적으로 추론합니다.
그리고 "왜 이걸 골랐는지"에 대한 이유도 설명해 줍니다.

비유: 교수님은 직접 사진을 보지 않아도, 비서가 쓴 "상황 보고서"만 보고도 "아, '꼬불꼬불한 디자인'이라고 했으니 저게 맞네!"라고 논리적으로 정답을 도출합니다. 마치 수사관이 현장 사진을 보지 않고도 증인들의 진술록만 보고 범인을 찾아내는 것과 같습니다.

🌟 왜 이 방법이 특별한가요?

이해가 쉽습니다 (해석 가능성): 기존 AI 는 "이게 맞아요"라고만 말했지만, SGREC 은 "왜 이걸 골랐는지" (예: "꼬불꼬불한 디자인이니까요") 를 설명해 줍니다. 마치 친구가 "왜 이 꽃병이 빨간 거야?"라고 물으면 이유를 설명해 주는 것과 같습니다.
복잡한 관계도 잘 풉니다: "왼쪽에서 두 번째 꽃병"이나 "꽃이 있는 꽃병"처럼 복잡한 조건도, 물체 간의 관계를 정리한 '상황도' 덕분에 쉽게 해결합니다.
학습 없이도 잘합니다 (Zero-shot): 이 기술은 새로운 물체나 새로운 질문을 만나도, 미리 그 물체를 배우지 않아도 논리적으로 추론해서 찾아냅니다. 마치 새로운 도시를 처음 가도 지도와 나침반만 있으면 길을 찾을 수 있는 것과 같습니다.

📊 결론

이 논문은 **"이미지를 직접 보는 것"보다 "이미지를 언어로 정리해서 논리적으로 추론하는 것"**이 더 정확하고 설명 가능한 방법임을 증명했습니다.

마치 유능한 비서가 상황을 정리해 주고, 지혜로운 교수가 그 정리를 바탕으로 정답을 찾아주는 팀워크를 통해, AI 가 인간의 언어 지시를 훨씬 더 똑똑하고 정확하게 이해하게 만든 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

Zero-shot Referring Expression Comprehension (Zero-shot REC) 은 학습 데이터에 의존하지 않고, 자연어 쿼리 (질문) 를 통해 이미지 내의 특정 대상 객체를 찾아내는 작업입니다.

기존 방법의 한계:
- VLM(비전 - 언어 모델, 예: CLIP) 기반: 이미지 영역과 텍스트 간의 특징 유사성을 직접 측정하는 방식은 세밀한 시각적 디테일과 복잡한 객체 간 관계를 이해하는 데 어려움을 겪습니다. CLIP 은 문맥적 관계 모델링이나 논리적 추론에 특화되지 않았습니다.
- LLM(대형 언어 모델) 기반: 고수준의 의미 추론은 뛰어나지만, 시각적 특징을 직접 텍스트 의미로 추상화하여 REC 작업에 적용하는 데 한계가 있습니다.
핵심 과제: 시각적 장면의 공간적 관계, 객체 속성, 상호작용을 명확히 표현하여 LLM 이 추론할 수 있도록 하는 구조화된 중간 표현 (Intermediary) 의 부재.

2. 제안 방법: SGREC (Methodology)

저자들은 SGREC라는 새로운 프레임워크를 제안하며, 이는 쿼리 주도 장면 그래프 (Query-driven Scene Graph) 를 구조화된 중간 표현으로 활용하여 비전과 언어 간의 간극을 해소합니다. 전체 파이프라인은 세 단계로 구성됩니다.

Step 1: 객체 Grounding (Object Grounding)

이미지에서 쿼리와 관련된 객체들을 식별하고 선별합니다.

명사 추출 및 카테고리 예측: SpaCy 를 사용하여 쿼리에서 명사를 추출하고, 이를 COCO 카테고리 매핑과 유사한 어휘 (Word2Vec) 로 변환하여 이미지 내 탐지된 객체와 매칭합니다.
주어 추론 (Subject Inference): 모호한 쿼리 (예: "왼쪽 것") 에 대해 LLaVA(VLM) 를 활용하여 이미지 기반의 구체적인 주어 (예: "기린") 를 추론합니다.
선택: 추출된 명사, 예측된 카테고리, 추론된 주어를 기반으로 이미지 내 탐지된 객체 중 쿼리와 가장 관련성이 높은 객체들을 선별합니다.

Step 2: 쿼리 주도 장면 그래프 생성 (Scene Graph Generation)

선별된 객체들을 바탕으로 구조화된 장면 그래프를 생성합니다. 그래프는 다음 세 가지 정보를 포함합니다.

공간 정보 (Spatial Information): 객체의 바운딩 박스 좌표 $(x_1, y_1, x_2, y_2)$ 를 포함하여 LLM 이 좌표 계산을 통해 "왼쪽", "위쪽" 등의 공간 관계를 직접 추론할 수 있게 합니다.
객체 캡션 (Object Captions): 탐지된 객체 영역을 잘라내어 LLaVA 에 입력하고, 해당 객체의 색상, 모양, 상태, 행동 등을 상세히 설명하는 자연어 캡션을 생성합니다. 이는 단순 속성 태그보다 풍부한 문맥을 제공합니다.
상호작용 (Interactions): 객체 쌍 간의 관계를 LLaVA 를 통해 예측하여 관계 삼중항 (Relation Triplets, 예: [obj1, 관계, obj2]) 으로 표현합니다. 객체 혼란을 줄이기 위해 시각적 하이라이팅을 활용합니다.

Step 3: LLM 추론 (LLM Inference)

생성된 장면 그래프 (JSON 형식) 와 원본 쿼리를 LLM 에 입력합니다.

LLM 은 구조화된 텍스트 정보를 바탕으로 쿼리와 가장 일치하는 객체의 ID 를 선택하고, 그 선택 이유에 대한 상세한 설명을 생성합니다.
이 과정을 통해 모델은 "왜" 그 객체를 선택했는지 해석 가능한 (Interpretable) 결과를 제공합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: 장면 그래프와 LLM 을 통합하여 시각적 장면을 종합적으로 이해하고 정확한 대상 객체를 위치시키는 Zero-shot REC 프레임워크 (SGREC) 를 처음 제안했습니다.
구조화된 장면 그래프 생성 모듈: 공간 정보, 객체 캡션, 상호작용을 포착하는 새로운 생성 모듈을 도입하여, LLM 기반 추론을 위한 구조화되고 상세한 입력 데이터를 제공합니다.
해석 가능성 (Interpretability): 단순한 정답 예측을 넘어, LLM 이 생성한 설명을 통해 추론 과정을 투명하게 보여줍니다.
성능 입증: 널리 사용되는 3 가지 벤치마크 (RefCOCO, RefCOCO+, RefCOCOg) 에서 Zero-shot 설정 하에 최상위 성능을 달성했습니다.

4. 실험 결과 (Results)

성능: RefCOCO(val), RefCOCO+(testB), RefCOCOg(val) 에서 각각 66.78%, 53.43%, 73.28% 의 Top-1 정확도를 기록하여 기존 Zero-shot 방법들 (ReCLIP, RedCircle, GroundVLP 등) 을 압도했습니다. 특히 복잡한 관계 추론이 필요한 RefCOCOg 에서 큰 개선을 보였습니다.
비교:
- Zero-shot vs Supervised: SGREC 은 학습 데이터가 전혀 없는 Zero-shot 설정임에도 불구하고, 약한 감독 (Weakly-supervised) 방법들을 크게 상회하며, 일부 Fully-supervised 방법 (LGRAN 등) 과도 경쟁 가능한 성능을 보였습니다.
- 모델 크기 영향: 모델 크기만 늘리는 것 (예: GPT-4V 등) 이 성능 향상을 보장하지 않으며, 구조화된 장면 그래프를 통한 관계 모델링이 성능 향상의 핵심임을 입증했습니다.
분석:
- Ablation Study: 명사 기반 객체 선별, 카테고리/주어 추가, 캡션 및 상호작용 정보 포함이 성능에 긍정적인 영향을 미쳤음을 확인했습니다.
- Robustness: 밀집된 장면 (Dense scenes) 과 긴 꼬리 (Long-tail) 빈도의 명사에 대해서도 견고한 성능을 유지했습니다.
- 입력 형식: 자연어 프롬프트보다 JSON 과 같은 구조화된 텍스트 입력이 LLM 의 추론 안정성과 정확도를 높였습니다.

5. 의의 및 결론 (Significance)

시각 - 언어 간극 해소: 기존 VLM 이 가진 관계 모델링의 한계와 LLM 의 시각적 추상화 부족을 해결하기 위해, 시각적 정보를 구조화된 텍스트 (Scene Graph) 로 변환하는 새로운 접근법을 제시했습니다.
해석 가능한 AI: 단순히 "어디에 있는가"를 찾는 것을 넘어, "왜 그 객체인가"에 대한 논리적 근거를 제공함으로써 신뢰할 수 있는 AI 시스템 구축에 기여합니다.
데이터 효율성: 별도의 미세 조정 (Fine-tuning) 이나 대규모 레이블 데이터 없이도 복잡한 시각적 추론이 가능함을 보여주어, 레이블이 부족한 실제 환경에서의 적용 가능성을 높였습니다.

이 논문은 Zero-shot REC 분야에서 시각적 이해와 언어적 추론을 효과적으로 결합한 새로운 패러다임을 제시하며, 향후 해석 가능한 멀티모달 AI 연구의 중요한 이정표가 될 것으로 기대됩니다.