Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"스포츠 중계 화면을 보고 있는 AI 가, 실제 경기장의 거리와 위치를 얼마나 정확히 이해할 수 있을까?"**라는 질문에서 시작합니다.

기존의 AI(비전-언어 모델) 는 사진 속 사물을 인식하거나 "누가 누구를 치고 있나?" 같은 행동은 잘 알아내지만, **"공이 네트에서 정확히 몇 미터 떨어져 있는가?"**나 **"선수의 발이 코트 선에서 얼마나 멀리 있는가?"**처럼 정확한 거리와 3 차원 공간감을 계산하는 데는 여전히 약점이 있습니다.

이 연구팀은 이를 해결하기 위해 **'CourtSI(코트 SI)'**라는 새로운 프로젝트와 **'법정 (Benchmark)'**을 만들었습니다. 아래에 이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: AI 는 '눈'은 좋지만 '자'는 못 잡아요

지금까지의 AI 는 마치 사진을 잘 보는 미술관 큐레이터 같습니다. "이건 배드민턴 경기야", "저기 공이 있어"라고 말은 잘하지만, "저 공과 선수 사이의 거리가 정확히 2.5 미터야"라고 말하면 헷갈려 하거나 엉뚱한 숫자를 말해버립니다.

특히 스포츠는 공이 날아다니고 선수가 빠르게 움직이는 동적인 상황이라, 정적인 방이나 물체만 있는 환경에서 훈련된 AI 들은 더더욱 당황합니다.

2. 해결책: '가상의 자'를 만들어준 데이터 엔진

연구팀은 AI 가 거리 감각을 익히게 하기 위해, 실제 경기장의 규칙 (코트 크기, 네트 높이 등) 을 이용해 '가상의 자'를 만들어주는 시스템을 개발했습니다.

비유: 마치 건축 도면을 가지고 있는 것과 같습니다.
- 보통은 사진만 보고 거리를 재려고 하면 (단안 깊이 추정) 실수가 많지만, 이 시스템은 **"이 코트의 네트는 항상 1.55m 고야, 선은 13.4m 길어야 해"**라는 **정해진 규칙 (지오메트리)**을 먼저 적용합니다.
- 그 규칙을 바탕으로 사진 속 선수와 공의 위치를 3 차원 공간에 정확히 재배치한 뒤, 자동으로 "공과 선수 사이 거리는 3.2m 입니다"라는 질문과 정답을 100 만 개 이상 만들어냈습니다.
- 이를 통해 AI 는 단순히 "보이는 것"을 넘어 **"실제 물리적 공간"**을 이해하는 훈련을 할 수 있게 되었습니다.

3. 새로운 시험지: 'CourtSI-Bench'

이제 AI 들을 시험에 들였습니다.

시험 내용: 1,000 개 이상의 질문으로 구성된 'CourtSI-Bench'라는 시험지입니다.
- "공이 네트 위로 몇 cm 날아갔니?"
- "선수 A 와 선수 B 중 누가 공에 더 가까워?"
- "이 선수의 왼쪽 발이 코트 선에서 얼마나 떨어져 있니?"
결과:
- AI vs 인간: 최고의 AI 모델들도 인간에 비하면 거리를 재는 데서 큰 오차를 보였습니다. 특히 "얼마나 멀까?"를 묻는 문제에서 AI 는 종종 엉뚱한 답을 했습니다.
- 기존 학습의 한계: 다른 공간 지능 테스트 (예: 방 안의 가구 배치 등) 에서 잘하던 AI 들은 스포츠 장면에서는 전혀 잘하지 못했습니다. 이는 스포츠라는 특수한 환경은 기존 AI 가 겪어보지 못한 새로운 난이도임을 보여줍니다.

4. 성공적인 훈련: AI 가 스포츠 해설가가 되다

연구팀은 이 새로운 데이터 (CourtSI) 로 Qwen3-VL-8B라는 AI 모델을 다시 훈련 (파인튜닝) 시켰습니다.

결과: 훈련을 받은 AI 는 정답률이 23.5% 포인트나 급상승했습니다.
확장성: 배드민턴, 테니스, 탁구로만 훈련했는데, 전혀 보지 못한 '피클볼' 경기에서도 잘해냈습니다. 이는 AI 가 특정 스포츠를 외운 것이 아니라, 공간 감각이라는 '원리'를 제대로 배웠기 때문입니다.
해설가 변신: 이 AI 에게 경기 장면을 설명해달라고 했을 때, 단순히 "공이 날아갑니다"가 아니라, **"공이 네트에서 2.1 미터 떨어진 채로 선수의 발을 향해 빠르게 다가갑니다"**처럼 정확한 거리 정보를 포함해 생생한 해설을 할 수 있게 되었습니다.

5. 요약: 왜 이 연구가 중요할까요?

이 연구는 AI 가 단순히 사물을 '보는' 것을 넘어, 우리가 살아가는 3 차원 세계의 '거리와 관계'를 정확히 이해하는 단계로 나아가는 중요한 발걸음입니다.

창의적인 비유: 이 연구는 AI 에게 **"눈 (Vision)"만 달아주던 과거에서, "눈과 함께 자 (Ruler) 와 나침반 (Compass) 을 함께 달아주는 것"**으로의 전환을 의미합니다.
미래: 이렇게 공간 지능이 뛰어난 AI 는 향후 스포츠 중계 해설뿐만 아니라, 로봇이 공을 잡거나, 증강현실 (AR) 에서 정확한 위치 정보를 제공하거나, 자율주행차가 복잡한 도로 상황을 이해하는 데 큰 도움이 될 것입니다.

결론적으로, **"스포츠 코트라는 정해진 무대 위에서 AI 가 거리 감각을 깨우쳤다"**는 것이 이 논문의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비전 - 언어 모델 (VLM) 은 2 차원 시각적 추론과 의미론적 이해에서 뛰어난 성과를 보이고 있으나, 실제 물리적 세계와 상호작용하기 위해 필요한 3 차원 공간 지능 (Spatial Intelligence) 측면에서는 여전히 한계가 있습니다. 기존 연구들은 주로 정적인 실내 장면이나 강체 (rigid) 객체에 초점을 맞춘 벤치마크를 사용했습니다. 그러나 실제 환경에서는 비강체 (non-rigid) 변형과 관절 구조를 가진 인간과 동적 객체의 상호작용이 핵심입니다.

특히 스포츠 장면은 고강도의 인간 운동과 빠른 객체 상호작용 (공, 라켓 등) 이 발생하며, 정밀한 공간적 관계 (거리, 위치, 상대적 방향) 를 요구합니다. 기존 벤치마크들은 이러한 역동적이고 인간 중심적인 공간 추론 능력을 평가하기에 부족하며, VLM 이 스포츠와 같은 복잡한 3D 환경에서 얼마나 정확한 공간 지식을 갖췄는지 측정할 수 있는 체계적인 데이터셋과 평가 기준이 부재했습니다.

2. 방법론 (Methodology)

A. CourtSI 데이터셋 구축 (Semi-Automatic Data Engine)

저자들은 100 만 개 이상의 QA(질문 - 답변) 쌍을 포함하는 대규모 스포츠 공간 지능 데이터셋 CourtSI를 제안했습니다. 이를 위해 단안 (monocular) 이미지에서 정밀한 3D 장면을 재구성하는 반자동 데이터 엔진을 개발했습니다.

코트 기하학을 활용한 메트릭 보정:
- 배드민턴, 테니스, 탁구 등 네트 스포츠의 코트는 고정된 기하학적 구조와 치수를 가집니다.
- 이미지 내 코트 모서리 및 네트 높이에 대한 2D 주석을 3D 세계 좌표계와 매칭하여 PnP (Perspective-n-Point) 솔버를 사용하여 카메라 내/외부 파라미터를 정밀하게 보정합니다. 이를 통해 메트릭 스케일 (실제 거리 단위) 이 보장된 세계 좌표계를 확립합니다.
플레이어 및 공의 3D 위치 추정:
- 플레이어: PromptHMR 을 사용하여 SMPL-X 형식의 3D 인간 메쉬를 복원합니다. 단안 깊이 추정의 부정확성을 보완하기 위해, annotator 가 메쉬의 가장 낮은 꼭짓점 (발) 의 높이를 수동으로 주석하고, 이를 기반으로 메쉬를 3D 공간에 정렬 (re-align) 합니다.
- 공: 공은 작고 빠르게 움직여 깊이 추정이 어렵습니다. annotator 가 공의 2D 위치와 코트 평면 위의 투영점을 클릭하면, 카메라 파라미터를 이용해 공의 3D 깊이 ( $\lambda$ ) 를 해석적으로 계산하여 3D 위치를 복원합니다.
QA 쌍 생성:
- 재구성된 3D 상태 정보를 기반으로 자동화된 템플릿을 사용하여 QA 쌍을 생성합니다.
- 4 가지 주요 범주:
  1. 공간 카운팅 (Spatial Counting): 플레이어나 공의 수 세기.
  2. 거리 측정 (Distance Measurement): 카메라 - 객체, 객체 - 객체, 객체 - 선 (코트 라인) 간의 3D 거리 계산.
  3. 로컬라이제이션 (Localization): 3D 좌표계 내에서의 객체 위치 특정.
  4. 관계 추론 (Relational Reasoning): 객체 간의 상대적 위치 (왼쪽/오른쪽, 가까움/멀음, 코트 구역 내 위치 등) 판단.

B. CourtSI-Bench (평가 벤치마크)

CourtSI 전체 데이터 중 3,686 개의 QA 쌍을 엄격한 인간 검증 (Human Verification) 과정을 거쳐 고품질 평가 벤치마크로 선별했습니다.
재구성 오류로 인한 부정확한 답변을 제거하기 위해 두 명의 어노테이터가 시각화된 3D 장면을 확인하며 검증했습니다.

C. 실험 설정

모델 평가: 25 개의 최신 VLM(Proprietary: GPT-5.2, Gemini-3-Pro 등 / Open-source: Qwen3-VL, InternVL, LLaVA 등) 을 CourtSI-Bench 에서 평가했습니다.
파인튜닝: Qwen3-VL-8B 모델을 CourtSI 데이터로 지도 학습 (SFT) 하여 공간 지능 향상을 검증했습니다.
확장 평가:
- CourtSI-Ext: 학습에 사용되지 않은 새로운 스포츠 (피클볼) 로 일반화 능력을 평가.
- 공간 인식 코멘터리 생성: 학습된 모델이 스포츠 해설에 공간적 관계를 자연스럽게 통합하는지 평가.

3. 주요 기여 (Key Contributions)

CourtSI 및 CourtSI-Bench 제안: 스포츠 시나리오에 특화된 최초의 대규모 공간 지능 데이터셋과 벤치마크를 구축하여, 정적 객체 중심의 기존 벤치마크를 넘어 인간 중심의 정밀 공간 추론을 평가할 수 있는 테스트베드를 마련했습니다.
정밀 3D 재구성 데이터 엔진 개발: 코트의 기하학적 구조를 메트릭 앵커로 활용하여 단안 이미지에서 신뢰할 수 있는 3D 장면 상태를 복원하는 파이프라인을 제시했습니다.
포괄적인 평가 및 통찰: 25 개 VLM 에 대한 평가, 파인튜닝 효과 분석, 스포츠 간 일반화 (피클볼), 그리고 공간 인식 코멘터리 생성 평가를 통해 VLM 의 현재 한계와 개선 방향을 제시했습니다.

4. 실험 결과 (Results)

VLM 성능 한계: 25 개 모델 중 가장 강력한 모델조차 인간 성능 (Human Performance) 에 미치지 못했습니다. 특히 거리 측정 (Distance Measurement) 및 로컬라이제이션 작업에서 성능이 현저히 낮았으며, 기존 공간 지능 벤치마크에서 학습된 모델들은 CourtSI-Bench 에서도 일반화가 잘 되지 않았습니다.
파인튜닝 효과: CourtSI 데이터로 Qwen3-VL-8B 를 파인튜닝한 결과, 전체 정확도가 23.5%p 향상되었습니다. 특히 어려운 거리 측정 작업에서 25%p 이상의 큰 향상을 보였습니다.
일반화 능력: CourtSI-Ext(피클볼) 에서 파인튜닝된 모델은 베이스 모델 대비 13.2%p 향상된 성능을 보이며, 학습된 공간 추론 능력이 새로운 스포츠로 전이됨을 입증했습니다.
코멘터리 생성: 파인튜닝된 모델은 언어적 품질을 유지하면서 해설에 정확한 공간 정보 (거리 수치 등) 를 통합하는 능력을 크게 향상시켰습니다.
오류 분석: 모델들은 2D 이미지에서 3D 위치를 추정할 때 시점 왜곡 (Perspective Ambiguity) 에 취약하며, 특히 3D 거리가 멀지만 2D 이미지에서는 가깝게 보이는 경우 오류가 빈번하게 발생했습니다.

5. 의의 (Significance)

이 연구는 VLM 이 단순한 이미지 이해를 넘어 물리적 세계와의 상호작용에 필요한 정밀한 공간 지능을 갖추기 위해 스포츠와 같은 역동적인 시나리오가 필수적임을 보여줍니다.

데이터의 확장성: 제안된 반자동 데이터 엔진은 다양한 스포츠 및 시나리오로 확장 가능한 대규모 3D 공간 데이터 구축의 새로운 패러다임을 제시합니다.
AGI 로의 진전: 인간과 물리적 세계를 이해하고 상호작용하는 범용 인공지능 (AGI) 의 핵심 요소인 공간 지능을 발전시키는 데 CourtSI 가 중요한 발판이 될 것입니다.
실용적 응용: 정밀한 공간 이해는 스포츠 해설, 로봇 공학, 증강현실 (AR) 등 다양한 분야에서 VLM 의 실용성을 높이는 데 기여할 수 있습니다.

요약하자면, 이 논문은 스포츠라는 복잡한 환경을 통해 VLM 의 공간 지능 한계를 드러내고, 이를 해결하기 위한 데이터셋, 평가 기준, 그리고 효과적인 학습 전략을 제시함으로써 차세대 VLM 개발에 중요한 이정표를 세웠습니다.