이 논문은 객체 감지 및 추적 모델과 SAM2, 그리고 호모그래피 기법을 결합하여 축구 경기 영상에서 선수의 위치를 실시간으로 추적하고 실제 필드 좌표로 변환함으로써 코칭 의사결정과 팀 전술 개선을 위한 정량적 분석 데이터를 제공하는 AI 기반 축구 분석 시스템을 제안합니다.
원저자:Adrian Manchado, Tanner Cellio, Jonathan Keane, Yiyang Wang
이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
Each language version is independently generated for its own context, not a direct translation.
🏆 핵심 아이디어: "눈이 없는 카메라에 눈을 뜨게 하다"
일반적으로 축구 팀은 선수들의 속력, 이동 거리, 포지션 등을 분석하기 위해 고가의 센서나 특수 카메라를 사용합니다. 하지만 대부분의 팀은 그저 경기장을 비추는 단순한 카메라 영상만 가지고 있습니다.
이 연구팀은 **"카메라 영상만 있으면, AI 가 스스로 선수들을 찾아내고, 경기장 지도 위에 그들을 표시하며, 팀별 전략까지 분석해 줄 수 있다"**는 시스템을 만들었습니다. 마치 카메라가 스스로 "저기 저 사람이 우리 팀 선수야, 저 사람은 상대팀이야, 저 사람은 공을 쫓고 있어"라고 말해주는 것과 같습니다.
🛠️ 시스템이 어떻게 작동할까? (4 단계 레시피)
이 시스템은 크게 4 가지 단계로 이루어져 있습니다.
1. 선수 찾기 (사냥꾼과 추적기)
문제: 영상 속 선수들은 서로 겹치기도 하고, 빛이 반사되거나 비가 오면 잘 보이지 않습니다.
해결:
사냥꾼 (YOLO): 먼저 영상 속의 '사람'을 빠르게 찾아냅니다. (예: "저기 저 11 명은 선수야!")
추적기 (SAM2): 사냥꾼이 찾은 선수에게 '스티커'를 붙여줍니다. 이 스티커는 SAM2라는 AI 가 붙여주는데, 이 AI 는 마치 마법 같은 투명 테이프처럼 선수의 몸 모양을 정밀하게 따라 붙입니다.
효과: 선수가 다른 선수 뒤에 숨거나 (가려짐), 화면 밖으로 잠시 나가도 이 '마법 테이프'는 선수의 ID 를 기억해서 다시 화면에 들어오면 바로 찾아냅니다.
2. 팀 나누기 (색깔로 구분하기)
문제: 두 팀의 선수가 섞여 있는데, 누가 어느 팀인지 어떻게 알까?
해결: AI 는 선수 유니폼의 색깔을 분석합니다. 마치 색칠공부를 할 때 빨간색은 한 팀, 파란색은 다른 팀으로 분류하는 것처럼, 선수들의 유니폼 색을 모아두면 자동으로 두 팀으로 나뉩니다. 별도의 복잡한 학습 없이도 색만 보고 팀을 구분할 수 있습니다.
3. 카메라 각도 바로잡기 (거울 왜곡 교정)
문제: 카메라는 사각형으로 찍히지만, 실제 축구장은 평평한 직사각형입니다. 카메라 각도 때문에 선수가 멀리 있어도 가까이 보이는 등 왜곡이 생깁니다.
해결:
AI 는 경기장의 중심 원, 페널티 에어리어 선 같은 중요한 지점 (키 포인트) 을 찾아냅니다.
이 지점들을 기준으로 "허수아비 (Homography)" 기술을 사용합니다. 이는 마치 사진을 늘리거나 줄여서 실제 경기장 지도와 딱 맞게 맞추는 작업입니다.
결과적으로 카메라 화면의 왜곡을 제거하고, 실제 경기장 크기에 비례하는 정확한 지도를 만들어냅니다.
4. 데이터로 변환하기 (통계 만들기)
이제 지도 위에 선수들의 정확한 위치가 표시되면, 누가 얼마나 달렸는지, 어느 구역에서 많이 움직였는지 (히트맵), 팀 전체의 전술 패턴 등을 자동으로 계산할 수 있습니다.
📊 결과가 어땠나요?
연구팀은 미주리 공과대학교 (MSOE) 남자 축구팀의 실제 경기 영상 10 개를 가지고 실험했습니다.
성공: YOLO(사냥꾼) 와 SAM2(추적기) 를 조합한 방식이 가장 잘 작동했습니다. 선수 22 명 중 17 명을 별도의 학습 없이도 찾아내어 성공적으로 추적했습니다.
한계:
빛의 반사: 햇빛이 강하게 비추거나 그림자가 길어지면 유니폼 색이 변해 팀을 잘못 분류하기도 했습니다. (예: 햇빛에 반사된 빨간 유니폼을 파란 유니폼으로 오인)
오인식: 심판이나 공을 들고 있는 보조 심판 (볼보이) 을 선수로 착각하기도 했습니다.
데이터 부족: 현재는 홈 경기장 영상만 학습했기 때문에, 다른 경기장이나 카메라 각도가 다른 원정 경기에서는 정확도가 떨어질 수 있습니다.
🚀 앞으로의 계획
이 시스템이 더 완벽해지기 위해 연구팀은 다음과 같은 일을 계획하고 있습니다.
이동하는 선수 추적: 경기장 밖으로 나갔다가 다시 들어오는 선수를 놓치지 않고 계속 추적할 수 있도록 개선할 것입니다.
다양한 학습: 다양한 경기장과 날씨 조건에서 영상을 더 많이 학습시켜, 어떤 상황에서도 잘 작동하도록 만들 것입니다.
공 추적: 선수뿐만 아니라 축구공도 추적하여 경기 흐름 (공 점유율 등) 을 더 자세히 분석할 것입니다.
💡 결론
이 연구는 **"고가의 장비 없이도, 일반 카메라 영상만으로 프로 수준의 전술 분석이 가능하다"**는 것을 증명했습니다. 마치 모든 축구 팀이 이제 '스마트 코치'를 무료로 얻을 수 있게 된 것과 같습니다. 이 기술이 발전하면, 예산이 부족한 작은 팀들도 선수들의 능력을 극대화하고 더 나은 전략을 세울 수 있게 될 것입니다.
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Statement)
배경: 스포츠 분석은 팀 전략 수립과 선수 성과 향상에 필수적이지만, 프로 팀은 고가의 센서와 추적 장비를 사용하는 반면, 대부분의 아마추어 및 대학 팀은 경기 기록용 카메라만 보유하고 있어 정량적 데이터 확보가 어렵습니다.
핵심 과제:
데이터 부족: 라벨링된 데이터가 없어 선수 탐지 및 팀 분류를 위한 모델 학습이 어렵습니다.
좌표 변환의 어려움: 카메라 영상 (2D) 에서 추출된 선수의 위치를 실제 경기장의 물리적 거리 (미터 단위) 로 변환하기 위해서는 카메라 각도, 줌, 조명 변화 등을 고려한 정밀한 공간 매핑 (Homography) 이 필요합니다.
실시간 및 강건성: 가림 (Occlusion), 조명 변화, 다양한 날씨 조건에서도 선수를 지속적으로 추적하고 팀을 구분해야 합니다.
2. 방법론 (Methodology)
이 논문은 라벨링되지 않은 원시 비디오 데이터만으로 2D 경기장 표현을 생성하는 파이프라인을 제안합니다. 주요 구성 요소는 다음과 같습니다.
A. 선수 탐지 및 추적 (Player Detection & Tracking)
하이브리드 접근법: 객체 탐지 모델 (Object Detector) 과 **SAM2 (Segment Anything Model 2)**를 결합합니다.
초기화: YOLO 또는 Faster R-CNN 모델을 사용하여 첫 프레임에서 선수의 바운딩 박스 (Bounding Box) 를 탐지합니다.
추적: 탐지된 선수의 중심점을 프롬프트로 SAM2 에 입력하여, 선수의 세그멘테이션 마스크를 생성하고 메모리 메커니즘을 활용해 프레임 간 일관된 추적을 수행합니다.
장점: 기존 DeepSORT 와 달리 SAM2 는 가림 현상과 외형 변화에 강건하며, 탐지 모델을 매 프레임 실행할 필요가 없어 계산 비용을 절감합니다.
B. 팀 분류 (Team Classification)
비지도 클러스터링: 감독 학습 없이 선수들을 두 팀으로 분류하기 위해 K-Means 클러스터링을 적용합니다.
각 선수의 바운딩 박스 중심에서 작은 패치 (5x5 픽셀) 의 평균 RGB 색상을 추출합니다.
색상 벡터를 기반으로 k=2로 클러스터링하여 두 팀을 자동으로 구분합니다.
C. 경기장 키 포인트 탐지 및 호모그래피 (Key Point Detection & Homography)
커스텀 CNN 모델: 경기장의 기준점 (페널티 아크, 중앙 원, 미드필드 라인 등) 을 탐지하기 위해 12 개의 키 포인트를 예측하는 다중 작업 (Multi-task) CNN 을 학습시켰습니다.
데이터: 다양한 조명 (햇빛, 흐림) 조건에서 수동으로 라벨링된 146 프레임 사용.
손실 함수: 가시성 (Visibility) 이 없는 키 포인트는 무시하고, 가시성 분류 (Binary Cross-Entropy) 와 좌표 회귀 (MAE) 손실을 결합하여 학습합니다.
호모그래피 변환 (Homography):
탐지된 키 포인트와 실제 경기장 (NCAA 규격 및 Google Maps API 기반) 의 2D 템플릿 간의 대응 관계를 설정합니다.
DLT (Direct Linear Transformation) 알고리즘을 사용하여 카메라 좌표계를 실제 경기장 2D 좌표계로 변환하는 호모그래피 행렬을 계산합니다. 이를 통해 카메라 각도와 무관하게 실제 거리 (속도, 이동 거리 등) 를 계산할 수 있습니다.
3. 주요 기여 (Key Contributions)
라벨링 없는 데이터 기반 자동화 시스템: 사전 학습된 모델 (YOLO, SAM2) 과 소량의 커스텀 데이터 (키 포인트) 만을 활용하여, 전처리나 수동 라벨링 없이 raw 비디오에서 선수 위치, 팀, 물리적 거리를 추출하는 시스템을 구현했습니다.
SAM2 를 활용한 효율적 추적: 객체 탐지 모델의 초기화만으로도 SAM2 의 메모리 기능을 통해 장시간의 경기 영상에서 강건한 선수 추적을 가능하게 했습니다.
색상 기반 팀 분류: 복잡한 딥러닝 분류기 대신 간단한 색상 클러스터링으로 팀을 구분하는 경량화 방법을 제시했습니다.
실용적 통계 도출: 단순한 영상 분석을 넘어, 실제 거리 기반의 이동 거리, 속도, 히트맵 등 코칭에 활용 가능한 전술적 인사이트를 제공합니다.
4. 실험 결과 (Results)
A. 선수 탐지 모델 성능
비교 모델: Faster R-CNN, YOLOv5x, YOLOv8x, YOLOv11x.
최종 선정:YOLOv5x가 가장 우수한 성능을 보였습니다.
F1-Score: 0.8451 (가장 높음)
Recall: 0.7995 (누락 방지에 중요)
Precision: 0.8963
YOLOv5x 는 정밀도와 재현율의 균형이 가장 좋았으며, SAM2 와의 연동 시 가장 안정적인 바운딩 박스를 제공했습니다.