Each language version is independently generated for its own context, not a direct translation.
1. 왜 새로운 시스템이 필요할까요? (기존 방식의 문제)
과거에는 스포츠 중계에서 로고가 얼마나 많이, 오래 나왔는지 확인하기 위해 사람이 직접 비디오를 보며 일일이 기록했습니다. 이는 마치 손으로 모래알을 세는 일처럼 느리고, 피곤하며, 사람마다 기준이 달라서 결과가 일정하지 않았습니다.
그리고 컴퓨터가 대신 해주는 방식도 있었지만, 문제는 컴퓨터가 로고를 잡는 방법에 있었습니다.
- 기존 방식 (HBB): 컴퓨터가 로고를 찾을 때, 마치 직사각형의 투명 테이프를 로고 위에 붙이는 것과 같았습니다.
- 문제점: 축구 유니폼이 주름지거나, 카메라가 비스듬히 찍히면 로고는 기울어집니다. 그런데 직사각형 테이프는 기울어진 로고에 딱 맞게 붙지 못하고, 로고 주변에 있는 배경 (잔디, 하늘 등) 까지 덩달아 포함하게 됩니다.
- 결과: "아, 이 로고가 화면을 10% 차지했네!"라고 계산했는데, 실제로는 로고만 5% 정도였을 뿐, 나머지 5% 는 배경이었던 것입니다. 이는 광고주에게 과장된 수치를 보여주는 셈입니다.
2. ExposureEngine 의 해결책: "회전하는 로고에 딱 맞는 테이프"
이 시스템은 **'회전하는 로고에 딱 맞는 테이프'**를 발명했습니다.
- OBB (회전 직사각형): 컴퓨터가 로고를 찾을 때, 로고가 기울어져 있으면 테이프도 따라 기울어집니다. 마치 로고 모양에 맞춰 잘라낸 스티커를 붙이는 것처럼, 로고 주변 불필요한 배경은 완전히 제외하고 로고만 정확히 감싸줍니다.
- 효과: 이제 "이 로고가 화면을 정확히 5% 차지했다"는 수치를 정확하게 계산할 수 있게 되었습니다.
3. 이 시스템은 어떻게 작동하나요? (3 단계 과정)
이 시스템은 크게 세 가지 역할을 하는 팀으로 나뉩니다.
① 눈 (감지 모델): "로고 찾기 전문가"
- 이 시스템은 YOLOv11이라는 최신 AI 모델을 사용하며, 2024 년 스웨덴 프로축구 경기 영상 1,103 장을 학습했습니다.
- 이 영상에는 670 가지 다른 스폰서 로고가 포함되어 있습니다. (마치 670 가지 다른 얼굴을 기억하는 얼굴 인식 시스템과 비슷합니다.)
- 이 모델은 로고가 얼마나 기울어져 있든, 얼마나 멀리 있든, 가려져 있든 회전 각도를 계산하여 로고의 정확한 모양을 찾아냅니다.
② 두뇌 (분석 대시보드): "데이터 정리꾼"
- AI 가 찾은 로고 정보를 바탕으로 노출 시간, 화면 점유율 등을 계산합니다.
- 단순히 "로고가 나왔다"가 아니라, "로고가 화면의 어느 위치에, 얼마나 크게, 몇 초 동안 나타났는지"를 정확한 숫자로 정리해 줍니다.
③ 입 (AI 에이전트): "자연스러운 대화 파트너"
- 가장 재미있는 부분입니다. 사용자가 복잡한 수식이나 코드를 몰라도 됩니다.
- **"아디다스 로고가 후반전에 가장 많이 나온 구간을 찾아줘"**라고 말만 하면, AI 가 알아서 그 구간을 찾아 요약해 주고, 심지어 SNS 에 올릴 수 있는 짧은 영상 클립까지 만들어줍니다.
- 마치 비서가 사장님의 말 한마디로 모든 자료를 정리해 드리는 것과 같습니다.
4. 왜 이것이 중요한가요? (실제 효과)
- 정확한 광고 가치 평가: 광고주는 "내 로고가 얼마나 잘 보였는지"에 대해 정확한 데이터를 받습니다. 배경까지 포함해서 과장된 수치를 보는 일이 사라집니다.
- 빠른 처리: 이 시스템은 GPU(그래픽 카드) 를 사용하면 초당 약 20 프레임의 영상을 실시간으로 분석할 수 있어, 경기 중에도 거의 실시간으로 결과를 볼 수 있습니다.
- 편리함: 기술 전문가가 아니어도 자연어로 질문하면 바로 답을 얻을 수 있습니다.
5. 한 줄 요약
"기존에는 기울어진 로고를 직사각형으로 억지로 재서 오차를 냈다면, ExposureEngine 은 로고의 기울기에 맞춰 딱 맞게 자르는 '스마트 테이프'를 붙여, 광고주의 로고가 얼마나 빛났는지 정확하고 공정하게 측정해 주는 시스템입니다."
이 시스템은 스포츠 방송의 광고 시장을 더 투명하고 효율적으로 만들어 줄 것으로 기대됩니다.
Each language version is independently generated for its own context, not a direct translation.
1. 연구 배경 및 문제 정의 (Problem)
스포츠 중계 영상에서 스폰서 로고의 노출량을 정량화하는 것은 마케팅 효율성 평가와 광고 수익 산정에 필수적입니다. 그러나 기존 방식은 다음과 같은 한계를 가지고 있었습니다.
- 기존 방법의 한계: 수동 분석은 시간 소모가 크고 주관적이며 확장성이 떨어집니다. 자동화 시스템의 경우, 대부분 **수평 바운딩 박스 (Horizontal Bounding Box, HBB)**를 사용하여 로고를 감지합니다.
- HBB 의 기하학적 오류: 축구 경기와 같이 카메라 각도가 동적으로 변하고, 유니폼의 주름이나 원근 왜곡으로 인해 로고가 회전하거나 비틀어진 경우, HBB 는 로고 외의 배경 영역까지 포함하게 됩니다.
- 결과적 문제: 이로 인해 로고의 크기와 화면 점유율이 과대평가되며, 노출 지표 (Visibility Metrics) 의 정확도가 떨어집니다. 또한 로고 제거 (Masking) 나 편집과 같은 하위 작업의 정밀도도 저하됩니다.
2. 제안된 방법론 (Methodology)
저자들은 ExposureEngine이라는 엔드 - 투 - 엔드 시스템을 제안하여 회전 인식을 포함한 정밀한 스폰서 노출 분석을 가능하게 했습니다.
A. 데이터셋 구축
- 데이터 소스: 2024 년 스웨덴 엘리트 축구 리그의 하이라이트 클립 97 개 (32 경기, 16 팀) 를 활용했습니다.
- 주요 특징: 1,103 개의 프레임에서 670 개의 고유한 스폰서 로고를 **회전 바운딩 박스 (Oriented Bounding Box, OBB)**로 주석 (Annotation) 했습니다.
- 의의: 축구 중계 영상에 특화된 OBB 기반의 공개 데이터셋은 이번이 처음입니다.
B. 모델 아키텍처 및 학습
- 검출 모델: YOLOv11 기반의 OBB 검출 모델을 사용했습니다.
- 손실 함수 최적화: 클래스 불균형 (Long-tail distribution) 문제를 해결하기 위해 기존 이진 교차 엔트로피 (BCE) 대신 **Varifocal Loss (VFL)**를 도입했습니다. VFL 은 쉬운 부정 샘플 (easy negatives) 의 가중치를 줄이고, 국소화 품질 (IoU) 에 비례하여 긍정 샘플의 가중치를 조정하여 학습의 정밀도를 높입니다.
- 최적 모델: YOLOv11-Medium 이 가장 높은 성능을 보였으며, 1280x720 해상도에서 학습되었습니다.
C. 분석 파이프라인 및 에이전트 시스템
- 자동화 분석: 검출된 OBB 데이터를 기반으로 로고의 화면 점유 면적, 노출 시간, 감지 빈도 등을 계산합니다.
- LLM 기반 에이전트 (Agent Layer): LangGraph 프레임워크를 기반으로 한 다중 에이전트 시스템을 구축했습니다.
- Coordinator Agent: 사용자의 자연어 질의를 이해하고 작업을 조율합니다.
- Analysis/Highlight/Sharing Agents: 지표를 해석하거나, 특정 브랜드 노출 구간을 추출하여 소셜 미디어에 공유하는 등의 작업을 수행합니다.
- 이를 통해 "두 번째 반에서 가장 많이 노출된 스폰서는 누구인가?"와 같은 자연어 질의로 리포트를 생성할 수 있습니다.
3. 주요 기여 (Key Contributions)
- OBB 기반 로고 검출 모델: YOLOv11 을 기반으로 회전 각도를 고려한 정밀한 로고 검출 모델 개발.
- 공개 데이터셋: 축구 중계 영상에 특화된 670 개 클래스, 1,103 프레임의 OBB 주석 데이터셋 공개.
- 스폰서 분석 대시보드: 검출 데이터를 시각화하고 정량적 지표를 제공하는 통합 분석 대시보드.
- 에이전트 기반 분석 시스템: 자연어 질의를 통해 리포트 생성, 하이라이트 편집, 공유까지 자동화하는 다중 에이전트 시스템 구현.
4. 실험 결과 (Results)
- 검출 성능: YOLOv11-Medium 모델은 테스트 세트에서 mAP@0.5 0.859, 정밀도 (Precision) 0.96, 재현율 (Recall) 0.87을 기록했습니다.
- OBB vs HBB 비교:
- 검출 정확도 (mAP) 측면에서는 OBB 와 HBB 모델 간의 차이가 미미했습니다 (약 0.6% 차이).
- 기하학적 정밀도: OBB 는 HBB 대비 **Tightness Ratio (TR)**가 훨씬 높았습니다. 회전된 로고의 경우 HBB 는 불필요한 배경을 포함하지만, OBB 는 로고의 실제 형태에 맞춰 배경 누적을 최소화하여 노출 면적 계산의 정확도를 크게 향상시켰습니다.
- 추론 성능: GPU 가속 환경 (NVIDIA A100 등) 에서 약 19.98 FPS의 처리 속도를 달성하여 실시간 또는 준실시간 분석이 가능함을 입증했습니다.
5. 의의 및 결론 (Significance)
- 정확한 가치 평가: 단순한 '노출 여부'를 넘어, 로고가 화면을 차지하는 정확한 기하학적 면적을 계산함으로써 스폰서 노출 가치 (ROI) 를 더 정확하게 산정할 수 있습니다.
- 자동화 및 접근성: 복잡한 데이터 분석을 자연어 질의로 가능하게 하여 비기술적 이해관계자도 쉽게 스폰서 성과를 파악할 수 있습니다.
- 미래 지향성: 단순한 검출을 넘어, 골 세레머니 등 중요한 이벤트 시나리오에 가중치를 두거나, 세로형 (9:16) 소셜 미디어 포맷에 최적화된 영역을 분석하는 등 차세대 스포츠 미디어 분석의 기초를 마련했습니다.
이 연구는 스포츠 중계 영상 분석 분야에서 **기하학적 정밀도 (OBB)**와 **지능형 데이터 활용 (LLM Agent)**을 결합한 종합 솔루션을 제시했다는 점에서 의의가 큽니다.