TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

이 논문은 인간의 시각적 주시 궤적을 모방하여 이미지 이해와 설명 생성 간의 연관성을 명확히 하는 'TraceVision'이라는 새로운 비전 - 언어 모델을 제안하고, 이를 통해 공간적 이해와 해석 가능성을 획기적으로 향상시킨 결과를 제시합니다.

Fan Yang, Shurong Zheng, Hongyin Zhao, Yufei Zhan, Xin Li, Yousong Zhu, Chaoyang Zhao Ming Tang, Jinqiao Wang

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'TraceVision(트레이스비전)'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델을 쉽게 이해하기 위해 **'눈의 흔적을 따라가는 똑똑한 그림 해설가'**라고 상상해 보세요.

기존의 AI 그림 해설가들은 그림 전체를 한눈에 쓱 보고 "이건 강아지야, 저건 나무야"라고 말했지만, TraceVision은 사람이 그림을 볼 때 눈이 어떻게 움직이고, 손가락으로 어디를 가리키는지까지 따라가며 설명합니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 기존 AI vs. TraceVision: "한눈에 보는 것"과 "손가락으로 따라가는 것"

  • 기존 AI (글로벌 이해): 마치 그림을 멀리서 한 번 훑어보는 사람 같아요. "여기 강아지가 있네!"라고 말은 하지만, 강아지가 그림의 어느 구석에 있는지, 왜 그 강아지를 먼저 봤는지는 모릅니다.
  • TraceVision (궤적 이해): 이 모델은 **사람이 그림을 볼 때 눈이 움직인 궤적 (Trajectory)**을 함께 학습합니다. 마치 누군가 그림을 보며 **손가락으로 "이쪽, 저쪽, 그리고 여기!"**라고 가리키며 설명하는 과정을 그대로 배운 거죠.
    • 비유: 그림을 설명할 때, 남이 "저기 빨간 차 봐!"라고 말하면 그냥 차를 보는 게 아니라, **그 사람이 손가락으로 그 차를 가리키는 선 (궤적)**을 따라가며 "아, 저기 빨간 차가 있구나!"라고 정확히 이해하는 것입니다.

2. 핵심 기술: "지저분한 선을 정리하는 마법" (기하학적 단순화)

사람이 그림을 볼 때 눈이 움직인 궤적은 너무 많고 지저분합니다. (예: 410 개의 점)
TraceVision 은 이 지저분한 선을 **'지능적인 정리'**를 통해 핵심만 남깁니다.

  • 비유: 그림을 설명하는 동안 눈이 410 번 움직였다고 치죠. 그중에서 "이건 중요해 (빨간 차)"라고 가리킨 부분은 자세하게 남기고, "저건 그냥 지나간 길"인 부분은 대충 줄입니다.
  • 결과: 410 개의 점 중 37 개의 핵심 포인트만 남기면서도, 그림의 모양과 의미는 그대로 유지합니다. 이렇게 하면 AI 가 계산할 때 훨씬 빠르고 정확해집니다.

3. 두뇌의 협력: "눈 (Visual)"과 "손 (Trajectory)"의 대화

이 모델은 **TVP(궤적 인식 모듈)**라는 특별한 장치를 가지고 있습니다. 이는 그림을 보는 '눈'과 손가락으로 가리키는 '손'이 서로 대화하며 정보를 교환하는 방식입니다.

  • 비유:
    • 눈 (Visual): "여기에 강아지가 있네?"
    • 손 (Trajectory): "아니, 내 손가락이 가리키는 건 저기 있는 빨간 공이야!"
    • TraceVision: "아! 눈과 손이 서로 정보를 주고받으니, 강아지가 아니라 빨간 공에 집중해야겠구나!"
    • 이 과정을 통해 AI 는 그림의 어떤 부분이 중요한지, 왜 그 부분을 봤는지를 이유까지 설명할 수 있게 됩니다.

4. 새로운 학습 교재: "RILN 데이터셋"

이 모델을 가르치기 위해 연구자들은 **32 만 개의 새로운 교재 (RILN 데이터셋)**를 만들었습니다.
기존 교재는 단순히 "이건 개야"라고만 적혀 있었지만, 이 새로운 교재는 **"사람이 이 개를 볼 때 눈이 어떻게 움직였는지, 그리고 왜 그 개를 봤는지 논리적으로 설명하는 대화"**가 포함되어 있습니다.

  • 비유: 단순히 "사과"라고 외우는 게 아니라, "사과를 볼 때 눈이 먼저 줄기를 보고, 그 다음 빨간 색을 보고, 마지막에 둥근 모양을 확인했어"라고 이유와 순서를 함께 배우는 것입니다. 덕분에 AI 는 단순히 그림을 보는 것을 넘어 논리적으로 추리할 수 있게 됩니다.

5. 이 모델이 할 수 있는 일들

TraceVision 은 그림뿐만 아니라 동영상과 **세부적인 부분 (분할)**도 잘 다룹니다.

  • 그림 설명: "눈이 이 궤적을 따라갔을 때 무엇을 봤나요?"라고 물으면, 궤적에 있는 물체를 정확히 설명합니다.
  • 궤적 예측: "이 문장을 설명할 때 눈이 어떻게 움직일까요?"라고 물으면, AI 가 직접 눈이 움직일 길을 그려줍니다.
  • 동영상 이해: 여러 장의 그림이 이어진 동영상에서도 눈이 어떻게 움직이며 장면을 따라가는지 분석합니다.
  • 정밀한 자르기: "이 개만 잘라줘"라고 하면, 눈이 가리킨 궤적을 따라 개만 정확히 잘라냅니다.

요약

TraceVision은 단순히 그림을 "보는" AI 가 아니라, 사람이 그림을 "어떻게 보고, 어떻게 이해하는지"까지 흉내 내는 AI입니다. 마치 그림을 보며 옆에 있는 친구가 "저기 봐, 그리고 저기 봐!"라고 손가락으로 가리키며 설명해주는 것처럼, 시각적 주의 (Attention) 의 흐름을 이해함으로써 훨씬 더 인간적이고 정확한 설명을 해냅니다.

이 기술은 향후 자율주행 (운전자의 시선 분석), 가상현실 (사용자가 무엇을 보고 있는지 파악), 교육용 AI 등 다양한 분야에서 인간의 눈과 마음을 더 잘 이해하는 데 쓰일 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →