TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'TraceVision(트레이스비전)'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델을 쉽게 이해하기 위해 **'눈의 흔적을 따라가는 똑똑한 그림 해설가'**라고 상상해 보세요.

기존의 AI 그림 해설가들은 그림 전체를 한눈에 쓱 보고 "이건 강아지야, 저건 나무야"라고 말했지만, TraceVision은 사람이 그림을 볼 때 눈이 어떻게 움직이고, 손가락으로 어디를 가리키는지까지 따라가며 설명합니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 기존 AI vs. TraceVision: "한눈에 보는 것"과 "손가락으로 따라가는 것"

기존 AI (글로벌 이해): 마치 그림을 멀리서 한 번 훑어보는 사람 같아요. "여기 강아지가 있네!"라고 말은 하지만, 강아지가 그림의 어느 구석에 있는지, 왜 그 강아지를 먼저 봤는지는 모릅니다.
TraceVision (궤적 이해): 이 모델은 **사람이 그림을 볼 때 눈이 움직인 궤적 (Trajectory)**을 함께 학습합니다. 마치 누군가 그림을 보며 **손가락으로 "이쪽, 저쪽, 그리고 여기!"**라고 가리키며 설명하는 과정을 그대로 배운 거죠.
- 비유: 그림을 설명할 때, 남이 "저기 빨간 차 봐!"라고 말하면 그냥 차를 보는 게 아니라, **그 사람이 손가락으로 그 차를 가리키는 선 (궤적)**을 따라가며 "아, 저기 빨간 차가 있구나!"라고 정확히 이해하는 것입니다.

2. 핵심 기술: "지저분한 선을 정리하는 마법" (기하학적 단순화)

사람이 그림을 볼 때 눈이 움직인 궤적은 너무 많고 지저분합니다. (예: 410 개의 점)
TraceVision 은 이 지저분한 선을 **'지능적인 정리'**를 통해 핵심만 남깁니다.

비유: 그림을 설명하는 동안 눈이 410 번 움직였다고 치죠. 그중에서 "이건 중요해 (빨간 차)"라고 가리킨 부분은 자세하게 남기고, "저건 그냥 지나간 길"인 부분은 대충 줄입니다.
결과: 410 개의 점 중 37 개의 핵심 포인트만 남기면서도, 그림의 모양과 의미는 그대로 유지합니다. 이렇게 하면 AI 가 계산할 때 훨씬 빠르고 정확해집니다.

3. 두뇌의 협력: "눈 (Visual)"과 "손 (Trajectory)"의 대화

이 모델은 **TVP(궤적 인식 모듈)**라는 특별한 장치를 가지고 있습니다. 이는 그림을 보는 '눈'과 손가락으로 가리키는 '손'이 서로 대화하며 정보를 교환하는 방식입니다.

비유:
- 눈 (Visual): "여기에 강아지가 있네?"
- 손 (Trajectory): "아니, 내 손가락이 가리키는 건 저기 있는 빨간 공이야!"
- TraceVision: "아! 눈과 손이 서로 정보를 주고받으니, 강아지가 아니라 빨간 공에 집중해야겠구나!"
- 이 과정을 통해 AI 는 그림의 어떤 부분이 중요한지, 왜 그 부분을 봤는지를 이유까지 설명할 수 있게 됩니다.

4. 새로운 학습 교재: "RILN 데이터셋"

이 모델을 가르치기 위해 연구자들은 **32 만 개의 새로운 교재 (RILN 데이터셋)**를 만들었습니다.
기존 교재는 단순히 "이건 개야"라고만 적혀 있었지만, 이 새로운 교재는 **"사람이 이 개를 볼 때 눈이 어떻게 움직였는지, 그리고 왜 그 개를 봤는지 논리적으로 설명하는 대화"**가 포함되어 있습니다.

비유: 단순히 "사과"라고 외우는 게 아니라, "사과를 볼 때 눈이 먼저 줄기를 보고, 그 다음 빨간 색을 보고, 마지막에 둥근 모양을 확인했어"라고 이유와 순서를 함께 배우는 것입니다. 덕분에 AI 는 단순히 그림을 보는 것을 넘어 논리적으로 추리할 수 있게 됩니다.

5. 이 모델이 할 수 있는 일들

TraceVision 은 그림뿐만 아니라 동영상과 **세부적인 부분 (분할)**도 잘 다룹니다.

그림 설명: "눈이 이 궤적을 따라갔을 때 무엇을 봤나요?"라고 물으면, 궤적에 있는 물체를 정확히 설명합니다.
궤적 예측: "이 문장을 설명할 때 눈이 어떻게 움직일까요?"라고 물으면, AI 가 직접 눈이 움직일 길을 그려줍니다.
동영상 이해: 여러 장의 그림이 이어진 동영상에서도 눈이 어떻게 움직이며 장면을 따라가는지 분석합니다.
정밀한 자르기: "이 개만 잘라줘"라고 하면, 눈이 가리킨 궤적을 따라 개만 정확히 잘라냅니다.

요약

TraceVision은 단순히 그림을 "보는" AI 가 아니라, 사람이 그림을 "어떻게 보고, 어떻게 이해하는지"까지 흉내 내는 AI입니다. 마치 그림을 보며 옆에 있는 친구가 "저기 봐, 그리고 저기 봐!"라고 손가락으로 가리키며 설명해주는 것처럼, 시각적 주의 (Attention) 의 흐름을 이해함으로써 훨씬 더 인간적이고 정확한 설명을 해냅니다.

이 기술은 향후 자율주행 (운전자의 시선 분석), 가상현실 (사용자가 무엇을 보고 있는지 파악), 교육용 AI 등 다양한 분야에서 인간의 눈과 마음을 더 잘 이해하는 데 쓰일 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 대규모 비전 - 언어 모델 (LVLM) 은 이미지 이해와 자연어 생성에서 뛰어난 성과를 보이지만, 공간적 주의 (Spatial Attention) 모델링 측면에서 한계가 존재합니다.

전역적 이해의 한계: 기존 모델들은 이미지의 주요 영역에 집중하는 경향이 있어 주변 맥락 정보를 무시하거나, 관련 없는 영역에 주의를 분산시키는 경우가 많습니다.
인간 시각 패턴의 부재: 인간은 손가락 움직임이나 제스처, 눈동자 이동 (시선 추적) 을 통해 복잡한 시각적 내용을 이해합니다. 그러나 기존 LVLM 은 정적이고 이산적인 (discrete) 영역 정보 (바운딩 박스, 마스크 등) 에만 의존하여, 인간의 연속적이고 시간적 역동성을 가진 시각 주의 궤적 (Trajectory) 을 모사하거나 설명하는 데 어려움을 겪습니다.
데이터 부족: 궤적과 텍스트 간의 정밀한 정렬을 위한 고품질 학습 데이터가 부족하여, 연속적인 공간 주의 패턴을 이해하고 반응하는 모델을 훈련시키기 어렵습니다.

2. 방법론 (Methodology)

저자들은 TraceVision이라는 종단 간 (End-to-End) 비전 - 언어 모델을 제안하며, 인간의 주의 궤적을 미세한 시간 구조를 가진 기록으로 간주하고 이를 양방향으로 처리합니다.

2.1. 핵심 아키텍처

Trajectory-aware Visual Perception (TVP) 모듈:
- 시각 특징 (Visual Features) 과 궤적 정보 (Trajectory Information) 를 양방향 (Bidirectional) 으로 융합하는 핵심 모듈입니다.
- Trajectory-Aware Visual Enhancement (TVF): 궤적 정보를 쿼리로 사용하여 시각 특징을 강화합니다.
- Visually-Informed Trajectory Refinement (VTR): 시각 특징을 쿼리로 사용하여 궤적 표현을 정제합니다.
- 이 과정을 통해 모델은 공간적 주의 패턴과 시각적 이해를 통합하여 정확한 위치 파악과 전역적 맥락 유지를 동시에 달성합니다.
기하학적 단순화 (Geometric Simplification):
- 원시 궤적 데이터는 노이즈와 중복이 많습니다. 저자들은 의미론적 가이드 Douglas-Peucker 알고리즘을 도입했습니다.
- 텍스트의 의미적 중요도 (Semantic Weight) 에 따라 궤적의 샘플링 강도를 조절합니다. (예: 중요한 객체 설명 시에는 세부적인 궤적 포인트를 유지하고, 덜 중요한 부분은 대폭 축소). 이를 통해 410 개의 포인트를 37 개의 핵심 포인트로 91% 압축하면서도 공간 구조를 보존합니다.
세그멘테이션 모듈:
- 경량화된 세그멘테이션 디코더와 학습 가능한 코드북을 도입하여, 텍스트 생성과 함께 [SEG] 토큰을 통해 정밀한 영역 분할을 수행합니다.

2.2. 데이터셋: RILN (Reasoning-based Interactive Localized Narratives)

기존 Localized Narratives (LN) 데이터셋은 단순한 설명에 그쳐 복잡한 추론 능력이 부족했습니다.
저자들은 RILN 데이터셋 (32 만 개 샘플) 을 구축했습니다.
- GPT-4o, Qwen2.5VL-72B, Gemini-2.5 Pro 등 최신 VLM 을 활용하여 자동 생성했습니다.
- 4 가지 핵심 작업: 참조 궤적 해석 (Referential Trajectory Interpretation), 참조 궤적 그라운딩 (Grounding), 상호작용 궤적 추론 QA, 다중 턴 대화 생성.
- 전역적 장면 이해부터 세부적인 객체 수준의 공간 추론까지 계층적으로 구성되었습니다.

2.3. 학습 전략

3 단계 커리큘럼 러닝:
1. Pretraining: TVP 모듈과 궤적 임베딩 레이어만 학습하여 궤적 - 시각 - 언어 정렬 기반을 마련.
2. End-to-End Joint Training: 모든 파라미터를 풀어서 시각 인코더, LLM, TVP, 세그멘테이션 디코더를 공동 최적화.
3. Instruction Fine-tuning: RILN 데이터셋을 사용하여 복잡한 추론 및 대화 능력을 강화.

3. 주요 기여 (Key Contributions)

TraceVision 제안: 인간의 주의 궤적을 모델링하여 양방향 궤적 - 언어 이해를 수행하는 최초의 종단 간 LVLM.
TVP 모듈 및 기하학적 단순화 전략: 불규칙한 궤적과 시각 특징을 융합하여 정밀한 공간 추론을 가능하게 하는 아키텍처 설계.
RILN 데이터셋 구축: 32 만 개의 고품질 지시적 샘플을 포함하는 데이터셋을 공개하고, 궤적 기반 캡셔닝, 예측, 결합 생성 작업에서 SOTA 성능을 입증했습니다.

4. 실험 결과 (Results)

TraceVision 은 다양한 벤치마크에서 기존 최첨단 모델 (SOTA) 을 능가하는 성능을 보였습니다.

궤적 기반 캡셔닝 및 궤적 예측:
- Localized Narratives 테스트셋에서 Controlled Caption Generation (궤적 입력 $\rightarrow$ 텍스트 생성) 과 Controlled Trajectory Generation (텍스트 입력 $\rightarrow$ 궤적 예측) 모두에서 BLEU, METEOR, LBM (Spatial Alignment) 점수에서 1 위를 기록했습니다.
지역별 캡셔닝 (Regional Captioning):
- RefCOCOg, Visual Genome, Ref-L4 등 다양한 벤치마크에서 METEOR 및 CIDEr 점수에서 SOTA 성능을 달성했습니다.
참조 위치 지정 및 세그멘테이션 (Referring Localization & Segmentation):
- RefCOCO 시리즈에서 바운딩 박스 위치 지정 (P@0.5) 과 세그멘테이션 (cIoU) 모두에서 최상위 성능을 보였습니다. 특히 경량화된 디코더 (12M 파라미터) 로 SAM(636M) 과 Mask2Former(223M) 과 유사하거나 더 나은 성능을 내며 효율성을 입증했습니다.
비디오 이해:
- HC-STVG 및 VideoRefer-Bench-D 에서 시간적 궤적 정보를 처리하여 비디오 캡셔닝 및 참조 작업에서 우수한 성능을 발휘했습니다.
Ablation Study:
- TVP 모듈의 양방향 주의 메커니즘이 필수적임을 확인했습니다.
- RILN 데이터셋을 사용한 학습이 공간 추론 정확도를 23% 향상시켰음을 입증했습니다.

5. 의의 및 중요성 (Significance)

인간 중심의 공간 상호작용: TraceVision 은 기계가 인간의 시선 이동 패턴을 이해하고 모사할 수 있게 함으로써, 더 직관적이고 해석 가능한 (Interpretable) 시각 이해 시스템을 구축하는 토대를 마련했습니다.
해석 가능성 (Interpretability): 모델이 왜 특정 영역에 주의를 기울였는지 궤적을 통해 설명할 수 있어, 신뢰할 수 있는 AI 시스템 개발에 기여합니다.
다양한 응용 가능성: 가상 현실 (VR), 자율 주행, 의료 영상 분석 등 인간의 시선 추적이 중요한 분야에서 실시간 상호작용 및 공간 분석을 위한 강력한 도구로 활용될 수 있습니다.

요약하자면, TraceVision 은 정적인 이미지 이해를 넘어 시간적 연속성을 가진 인간의 시각적 탐색 과정을 모델에 통합함으로써, 비전 - 언어 모델의 공간적 추론 능력과 해석 가능성을 혁신적으로 향상시킨 연구입니다.