Each language version is independently generated for its own context, not a direct translation.

1. 문제: "유리창에 그려진 그림"과 "유리창"을 혼동하다

상상해 보세요. 거실 벽에 프로젝터로 바다 풍경을 비추고 있다고 칩시다.

실제 물체: 벽, 소파, 테이블.
투사된 이미지: 파도, 서퍼, 물고기.

기존의 똑똑한 AI(비전 언어 모델) 는 이 두 가지를 구분하지 못합니다. 마치 **"벽에 서퍼가 타고 있는 것"**이라고 말하거나, **"서퍼가 벽에 그려진 그림"**이라고 착각하는 식이죠.
이걸 **'가상과 현실의 혼동 (Virtual-physical ambiguity)'**이라고 합니다. AI 가 "이건 진짜 물체야?" 아니면 "이건 빛으로 비춘 그림이야?"를 구별하지 못하면, 나중에 이 공간에서 로봇이 일을 하거나 사용자와 대화할 때 엉뚱한 실수를 저지르게 됩니다.

2. 해결책: '프로캡 (ProCap)'이라는 새로운 눈

저자들은 이 문제를 해결하기 위해 **'ProCap(Projection-Aware Captioning)'**이라는 새로운 시스템을 개발했습니다. 이 시스템은 두 가지 핵심 기술을 사용합니다.

① '가림막'으로 분리하기 (자동 분할)

AI 가 이미지를 볼 때, 투사된 그림이 있는 부분만 **'투명한 가림막 (마스크)'**으로 덮어씌웁니다.

가림막 안: 투사된 그림 (예: 서퍼)
가림막 밖: 실제 배경 (예: 벽, 소파)

이렇게 AI 가 두 세계를 물리적으로 분리해서 보게 하니, "서퍼는 그림이고, 소파는 진짜다"라고 명확하게 알 수 있게 됩니다.

② '정리된 도서관'에서 찾아오기 (영역 인식 검색)

프로젝터로 비추면 그림이 왜곡되거나 흐릿해질 수 있습니다. (예: 구부러진 벽에 비추면 서퍼가 찌그러져 보임)
기존 AI 는 이런 흐릿한 그림을 보면 "저게 뭐지? 아마 개인가?"라고 엉뚱한 소리를 할 수 있습니다.

ProCap 은 흐릿한 그림을 보고 당황하지 않습니다. 대신 **"이건 LVIS 라는 거대한 도서관에 있는 '서퍼'라는 책과 비슷해"**라고 찾아옵니다.

흐릿한 이미지 → 정리된 도서관 (지식 베이스) → "아, 이건 서퍼구나!"
이렇게 흐릿한 빛의 정보를 정확한 '단어'로 변환해 주니, AI 가 망상 (Hallucination) 을 하지 않게 됩니다.

3. 새로운 시험지: 'RGBP' 데이터셋

이 기술을 가르치기 위해, 저자들은 **'RGBP'**라는 새로운 데이터셋을 만들었습니다.

기존 데이터셋 (COCO 등): 자연스러운 사진만 많음.
RGBP 데이터셋: 실제 물체 + 투사된 그림이 섞인 사진 18 만 장.
- 각 사진마다 **"실제 물체는 뭐야?"**와 **"투사된 그림은 뭐야?"**에 대한 정답을 따로따로 적어두었습니다.

이건 마치 학생에게 "이 사진에서 진짜 사과와 그림으로 그린 사과를 구분해서 설명해 봐"라고 가르치는 것과 같습니다.

4. 결과: AI 가 이제 눈이 밝아졌습니다!

실험 결과, ProCap 을 사용한 AI 는 기존 AI 들보다 훨씬 정확하게 설명했습니다.

기존 AI: "나무 테이블 위에 서퍼가 타고 있고, 옆에 파란 꽃병이 있어." (서퍼를 진짜 물체로 착각)
ProCap AI: "나무 테이블 위에 그림으로 비춘 서퍼가 있고, 옆에 진짜 파란 꽃병이 있어." (정확한 구분)

5. 왜 중요할까요? (미래의 모습)

이 기술은 단순한 설명을 넘어, 로봇이나 스마트 홈이 증강 현실 공간에서 일하는 데 필수적입니다.

예시: 로봇이 "서퍼가 있는 테이블을 닦아줘"라고 명령받았을 때, ProCap 이 있다면 로봇은 "아, 서퍼는 그림이니까 닦을 필요 없고, 진짜 테이블만 닦아야지"라고 판단할 수 있습니다.

요약

이 논문은 **"프로젝터로 비추는 그림과 실제 물체를 AI 가 헷갈리지 않게 가르치는 방법"**을 제시했습니다.

문제: AI 가 그림과 현실을 섞어씀.
해결: 그림 영역을 가리고, 흐릿한 그림은 정확한 단어로 찾아줌.
결과: AI 가 증강 현실 공간에서 훨씬 똑똑하고 안전하게 일할 수 있게 됨.

마치 안경을 써서 흐릿한 세상을 또렷하게 보게 해주는 것처럼, ProCap 은 AI 가 증강 현실이라는 복잡한 세상을 제대로 이해하게 해주는 '눈'을 만들어준 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

ProCap: 공간 증강 현실 (SAR) 을 위한 투사 인식 캡셔닝 기술 요약

이 논문은 2026 IEEE VR 컨퍼런스에 채택된 **"ProCap: Projection-Aware Captioning for Spatial Augmented Reality"**로, 공간 증강 현실 (SAR) 환경에서 물리적 장면과 투사된 가상 콘텐츠를 명확히 구분하여 설명하는 새로운 프레임워크를 제안합니다.

1. 문제 정의 (Problem)

공간 증강 현실 (SAR) 은 프로젝터를 통해 디지털 콘텐츠를 물리적 장면 위에 직접 투사하여 몰입형 경험을 제공합니다. 그러나 SAR 환경에서 지능형 상호작용 (추론, 사용자 질의 응답 등) 을 구현하기 위해서는 **물리적 장면 (Physical Scene)**과 **투사된 콘텐츠 (Projected Content)**를 의미론적으로 구분할 수 있어야 합니다.

기존의 표준 비전 - 언어 모델 (VLM) 은 SAR 환경에서 다음과 같은 세 가지 주요 한계를 겪습니다:

가상 - 물리적 모호성 (Virtual-physical ambiguity): VLM 은 이미지의 모든 객체를 물리적 사물로 간주하여 투사된 콘텐츠 (예: 물 위에 서핑하는 사람) 를 실제 인쇄된 그림이나 물체로 오인하는 '병합된 (merged)' 설명을 생성합니다.
투사로 인한 지각 저하: 비이상적인 시점, 환경 광원, 표면 재질, 복잡한 기하학적 형태로 인해 투사된 콘텐츠는 기하학적/광학적 왜곡을 겪습니다. 이로 인해 VLM 이 왜곡된 이미지를 잘못 해석하여 환각 (hallucination) 을 일으킵니다.
SAR 전용 시맨틱 벤치마크 부재: 기존 데이터셋 (COCO 등) 은 자연 이미지에 최적화되어 있어, 투사된 콘텐츠와 물리적 배경을 분리하여 주석 (annotation) 한 대규모 데이터셋이 부족합니다. 또한, 기존 평가 지표는 전체 이미지에 대한 단일 점수만 제공하여 물리적 장면과 투사 콘텐츠를 각각 얼마나 잘 이해했는지 독립적으로 평가할 수 없습니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 ProCap이라는 2 단계 파이프라인을 제안합니다.

2.1 자동 분할 및 특징 추출 (Feature Extraction & Segmentation)

이중 캡셔닝 태스크: 입력 이미지 $I$ 를 물리적 장면 ( $I_s$ ) 과 투사 콘텐츠 ( $I_p$ ) 로 분리하여 각각에 대한 설명 ( $C_s, C_p$ ) 을 생성하는 것을 목표로 합니다.
투사 분할 모듈: CLIP ViT-g 를 기반으로 한 비전 인코더를 사용하여 입력 이미지를 특징 맵으로 변환한 후, 분할 모듈을 통해 투사 영역을 나타내는 이진 마스크 ( $I_m$ ) 를 생성합니다. 이는 투사된 빛의 존재 여부를 coarse하게 식별하여 물리적 배경과 분리합니다.
마스크 풀링 (Mask Pooling): 생성된 마스크를 사용하여 투사 영역의 특징만 추출하고 강화합니다.

2.2 영역 인식 검색 및 캡셔닝 (Region-aware Retrieval and Captioning)

외부 지식 기반 검색: 투사된 콘텐츠는 왜곡이 심하므로, 추출된 투사 특징 ( $Q_p$ ) 을 외부 시맨틱 지식 베이스 (LVIS 데이터셋 기반) 와 매칭합니다.
지식 Q-Former: 검색된 객체 이름 (Semantic Context) 을 정제하여 투사 콘텐츠의 왜곡을 보정하고, VLM 에게 '깨끗한' 시맨틱 신호를 제공합니다. 이를 통해 기하학적/광학적 왜곡에 강건한 설명을 생성합니다.
다중 소스 융합: 물리적 장면 특징 ( $Q_s$ ), 투사 특징 ( $Q_p$ ), 검색된 시맨틱 컨텍스트 ( $Q_k$ ) 를 각각 태스크별 토큰 ([SCENE], [PROJ]) 과 함께 LLM 디코더에 입력하여 독립적인 캡션을 생성합니다.

3. 주요 기여 (Key Contributions)

ProCap 프레임워크: 자동 분할과 영역 인식 시맨틱 검색을 통해 가상 - 물리적 모호성을 해결하고, 투사 왜곡에 강건한 이중 캡셔닝을 수행하는 새로운 아키텍처를 제안했습니다.
RGBP 데이터셋 (RGB + Projections): SAR 전용으로 제작된 최초의 대규모 시맨틱 벤치마크입니다.
- 65 개의 다양한 물리적 장면과 180,000 개 이상의 투사 이미지를 포함합니다.
- 물리적 장면과 투사 콘텐츠에 대한 분리된 정답 (Ground Truth) 캡션과 이진 분할 마스크를 제공합니다.
이중 캡셔닝 평가 프로토콜: 태스크별 토큰을 사용하여 물리적 장면 설명과 투사 콘텐츠 설명을 독립적으로 평가하는 새로운 프로토콜을 정립했습니다. 이는 기존 단일 점수 평가의 편향을 제거하고 모델의 실제 능력을 정확히 측정합니다.

4. 실험 결과 (Results)

저자들은 RGBP 데이터셋을 사용하여 ProCap 을 FastVLM, Qwen3-VL 등 최신 VLM 과 비교 평가했습니다.

성능 향상: ProCap 은 물리적 장면 설명 (Scene Captioning) 과 투사 콘텐츠 설명 (Projection Captioning) 모두에서 기존 오프 - 더 - 쉘 (off-the-shelf) VLM 들을 압도적으로 능가했습니다.
- 특히 투사 콘텐츠 설명에서, 기존 모델이 CIDEr 점수 11.56 에 머무른 반면, ProCap 기반 모델 (Vicuna-1.5-7B) 은 78.99, 미세 조정된 Qwen3-VL-8B 는 127.58의 높은 점수를 기록했습니다.
- 이는 가상 - 물리적 모호성을 해결하고 왜곡을 보정하는 메커니즘이 효과적임을 입증합니다.
일반화 능력: 학습에 사용되지 않은 5 개의 새로운 장면 (Unseen Scenes) 에서도 ProCap 은 강력한 성능을 유지하며, 투사된 콘텐츠가 모델에 알려지지 않은 경우에도 영역 인식 검색을 통해 정확한 설명을 생성했습니다.
Ablation Study: 분할 모듈, 특징 정제 (Refinement), 영역 인식 검색 (RAR) 이 모두 성능에 긍정적으로 기여함을 확인했습니다. 특히 외부 지식 기반 검색이 투사 콘텐츠의 설명 정확도를 크게 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 연구는 SAR 기술이 단순한 기하학적 보정이나 저수준 태스크를 넘어, 고수준의 시맨틱 이해와 지능형 상호작용이 가능한 단계로 발전하는 데 중요한 기반을 마련했습니다.

자율 SAR 에이전트: ProCap 은 SAR 시스템이 물리적 환경과 투사 콘텐츠를 구분하여 사용자의 질의에 논리적으로 응답하거나 상황을 추론할 수 있는 토대를 제공합니다.
MoE 아키텍처 통합: ProCap 을 전문가 (Expert) 모듈로 활용하여 대규모 다중 모달 시스템에 통합함으로써, SAR 환경에서의 환각을 줄이고 신뢰성을 높일 수 있습니다.
생성적 활용: 분리된 캡션 데이터셋은 자연어 지시를 통한 SAR 장면 합성 및 시뮬레이션에도 활용될 수 있습니다.

결론적으로, ProCap 과 RGBP 데이터셋은 SAR 연구의 새로운 표준을 제시하며, 복잡한 환경에서의 다중 모달 추론을 위한 강력한 시맨틱 기반을 확립했습니다.

ProCap: Projection-Aware Captioning for Spatial Augmented Reality