Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

이 논문은 스포츠 장면의 공간적 지능을 평가하기 위해 100 만 개 이상의 QA 쌍을 포함한 대규모 데이터셋 'CourtSI'와 검증된 벤치마크 'CourtSI-Bench'를 제안하고, 이를 통해 기존 비전 - 언어 모델의 공간 이해 한계를 드러내며 스포츠 특화 파인튜닝이 성능을 획기적으로 개선함을 입증합니다.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"스포츠 중계 화면을 보고 있는 AI 가, 실제 경기장의 거리와 위치를 얼마나 정확히 이해할 수 있을까?"**라는 질문에서 시작합니다.

기존의 AI(비전-언어 모델) 는 사진 속 사물을 인식하거나 "누가 누구를 치고 있나?" 같은 행동은 잘 알아내지만, **"공이 네트에서 정확히 몇 미터 떨어져 있는가?"**나 **"선수의 발이 코트 선에서 얼마나 멀리 있는가?"**처럼 정확한 거리와 3 차원 공간감을 계산하는 데는 여전히 약점이 있습니다.

이 연구팀은 이를 해결하기 위해 **'CourtSI(코트 SI)'**라는 새로운 프로젝트와 **'법정 (Benchmark)'**을 만들었습니다. 아래에 이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: AI 는 '눈'은 좋지만 '자'는 못 잡아요

지금까지의 AI 는 마치 사진을 잘 보는 미술관 큐레이터 같습니다. "이건 배드민턴 경기야", "저기 공이 있어"라고 말은 잘하지만, "저 공과 선수 사이의 거리가 정확히 2.5 미터야"라고 말하면 헷갈려 하거나 엉뚱한 숫자를 말해버립니다.

특히 스포츠는 공이 날아다니고 선수가 빠르게 움직이는 동적인 상황이라, 정적인 방이나 물체만 있는 환경에서 훈련된 AI 들은 더더욱 당황합니다.

2. 해결책: '가상의 자'를 만들어준 데이터 엔진

연구팀은 AI 가 거리 감각을 익히게 하기 위해, 실제 경기장의 규칙 (코트 크기, 네트 높이 등) 을 이용해 '가상의 자'를 만들어주는 시스템을 개발했습니다.

  • 비유: 마치 건축 도면을 가지고 있는 것과 같습니다.
    • 보통은 사진만 보고 거리를 재려고 하면 (단안 깊이 추정) 실수가 많지만, 이 시스템은 **"이 코트의 네트는 항상 1.55m 고야, 선은 13.4m 길어야 해"**라는 **정해진 규칙 (지오메트리)**을 먼저 적용합니다.
    • 그 규칙을 바탕으로 사진 속 선수와 공의 위치를 3 차원 공간에 정확히 재배치한 뒤, 자동으로 "공과 선수 사이 거리는 3.2m 입니다"라는 질문과 정답을 100 만 개 이상 만들어냈습니다.
    • 이를 통해 AI 는 단순히 "보이는 것"을 넘어 **"실제 물리적 공간"**을 이해하는 훈련을 할 수 있게 되었습니다.

3. 새로운 시험지: 'CourtSI-Bench'

이제 AI 들을 시험에 들였습니다.

  • 시험 내용: 1,000 개 이상의 질문으로 구성된 'CourtSI-Bench'라는 시험지입니다.
    • "공이 네트 위로 몇 cm 날아갔니?"
    • "선수 A 와 선수 B 중 누가 공에 더 가까워?"
    • "이 선수의 왼쪽 발이 코트 선에서 얼마나 떨어져 있니?"
  • 결과:
    • AI vs 인간: 최고의 AI 모델들도 인간에 비하면 거리를 재는 데서 큰 오차를 보였습니다. 특히 "얼마나 멀까?"를 묻는 문제에서 AI 는 종종 엉뚱한 답을 했습니다.
    • 기존 학습의 한계: 다른 공간 지능 테스트 (예: 방 안의 가구 배치 등) 에서 잘하던 AI 들은 스포츠 장면에서는 전혀 잘하지 못했습니다. 이는 스포츠라는 특수한 환경은 기존 AI 가 겪어보지 못한 새로운 난이도임을 보여줍니다.

4. 성공적인 훈련: AI 가 스포츠 해설가가 되다

연구팀은 이 새로운 데이터 (CourtSI) 로 Qwen3-VL-8B라는 AI 모델을 다시 훈련 (파인튜닝) 시켰습니다.

  • 결과: 훈련을 받은 AI 는 정답률이 23.5% 포인트나 급상승했습니다.
  • 확장성: 배드민턴, 테니스, 탁구로만 훈련했는데, 전혀 보지 못한 '피클볼' 경기에서도 잘해냈습니다. 이는 AI 가 특정 스포츠를 외운 것이 아니라, 공간 감각이라는 '원리'를 제대로 배웠기 때문입니다.
  • 해설가 변신: 이 AI 에게 경기 장면을 설명해달라고 했을 때, 단순히 "공이 날아갑니다"가 아니라, **"공이 네트에서 2.1 미터 떨어진 채로 선수의 발을 향해 빠르게 다가갑니다"**처럼 정확한 거리 정보를 포함해 생생한 해설을 할 수 있게 되었습니다.

5. 요약: 왜 이 연구가 중요할까요?

이 연구는 AI 가 단순히 사물을 '보는' 것을 넘어, 우리가 살아가는 3 차원 세계의 '거리와 관계'를 정확히 이해하는 단계로 나아가는 중요한 발걸음입니다.

  • 창의적인 비유: 이 연구는 AI 에게 **"눈 (Vision)"만 달아주던 과거에서, "눈과 함께 자 (Ruler) 와 나침반 (Compass) 을 함께 달아주는 것"**으로의 전환을 의미합니다.
  • 미래: 이렇게 공간 지능이 뛰어난 AI 는 향후 스포츠 중계 해설뿐만 아니라, 로봇이 공을 잡거나, 증강현실 (AR) 에서 정확한 위치 정보를 제공하거나, 자율주행차가 복잡한 도로 상황을 이해하는 데 큰 도움이 될 것입니다.

결론적으로, **"스포츠 코트라는 정해진 무대 위에서 AI 가 거리 감각을 깨우쳤다"**는 것이 이 논문의 핵심 메시지입니다.