Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Each language version is independently generated for its own context, not a direct translation.

🎥 핵심 아이디어: "AI 에게 '화질 점수'를 알려주자!"

상상해 보세요. 여러분이 친구에게 "저기 있는 사람이 누구야?"라고 물었는데, 친구가 흐릿하게 찍힌 사진을 보고 "모르겠어"라고 대답했다고 칩시다. 하지만 선명한 사진을 보여주면 바로 "아, 그 사람은 김철수야!"라고 맞춥니다.

지금까지의 AI(컴퓨터) 도 비슷했습니다. 비디오가 흐리거나 흔들리면, AI 는 내용을 제대로 분류하지 못했습니다. 이 논문은 **"AI 가 비디오를 볼 때, 먼저 '이 비디오가 얼마나 선명한지' 점수를 매겨보게 하자"**고 제안합니다.

🛠️ 해결책: 'SSL-V3'라는 새로운 AI 시스템

연구자들은 SSL-V3라는 새로운 시스템을 만들었습니다. 이 시스템은 두 가지 일을 동시에 합니다.

비디오 내용을 분류하는 일 (예: 이 사람은 치매가 있는가? 아니면 건강한가?)
비디오 화질을 평가하는 일 (예: 이 영상은 선명한가? 흐린가?)

여기서 가장 재미있는 점은, 화질 점수를 직접적으로 가르쳐 주지 않아도 된다는 것입니다. 보통 화질을 평가하려면 사람이 일일이 "이건 10 점, 저건 5 점"이라고 표시해 줘야 하는데, 그건 너무 힘들고 비용이 많이 듭니다.

🧩 어떻게 작동할까? (비유로 설명)

이 시스템은 마치 **"쌍둥이 형제"**가 함께 공부하는 것과 같습니다.

형제 A (상위 가지): 비디오를 보고 "이건 치매 환자인가?"라고 추측합니다.
형제 B (하위 가지): 같은 비디오를 조금 다르게 변형해서 보고, 형제 A 와 같은 추측을 합니다.

이때 두 형제가 서로의 답을 비교합니다. 만약 두 형제가 같은 결론에 도달했다면, 그 비디오는 화질이 좋아서 확실한 답이 나온 것입니다. 하지만 두 형제가 서로 다른 답을 내놓았다면, 비디오가 흐려서 혼란이 생긴 것입니다.

이 과정을 통해 AI 는 **스스로 "아, 이 비디오는 화질이 나빠서 답을 확신할 수 없구나"**라고 깨닫게 됩니다. 그리고 이 깨달음 (화질 점수) 을 이용해 **"화질이 나쁜 비디오의 답은 조금 덜 믿고, 화질이 좋은 비디오의 답은 더 믿어라"**라고 스스로 학습 규칙을 바꿉니다.

이를 논문에서는 **'연쇄 법칙 (Chain Rule)'**이라고 부르는데, 쉽게 말해 **"화질 평가가 분류를 도와주고, 분류 결과가 다시 화질 평가를 가르쳐 주는 선순환"**을 만드는 것입니다.

🏥 실제로 어떤 효과가 있을까?

연구자들은 이 시스템을 두 가지 분야에서 시험해 보았습니다.

치매 (MCI) 진단: 노인들의 인터뷰 영상을 분석했습니다. 흐린 영상에서도 AI 가 훨씬 정확하게 치매 여부를 판단할 수 있게 되었습니다. (정확도 94.87% 달성!)
하키 경기 폭력 탐지: 하키 경기 중 싸움이 일어나는 영상을 분석했습니다. 빠른 동작으로 인해 영상이 흐려져도 폭력 장면을 잘 찾아냈습니다.

💡 결론: 왜 이 연구가 중요할까?

이 연구의 핵심은 **"비디오의 화질이라는 숨겨진 요소를 AI 가 스스로 감지해서 학습에 활용했다"**는 점입니다.

기존에는 화질이 나쁜 영상을 그냥 버리거나, 화질을 개선하는 복잡한 작업을 거쳐야 했지만, 이 방법은 화질 점수라는 '비밀 무기'를 AI 내부에서 자동으로 만들어내어 성능을 획기적으로 높였습니다.

마치 안경을 쓴 사람이 흐린 안경으로 세상을 볼 때, 안경이 얼마나 흐린지 스스로 인지하고 뇌가 그 흐림을 보정해 주는 것과 같습니다. 덕분에 흐린 영상에서도 AI 는 더 똑똑하고 정확한 판단을 내릴 수 있게 된 것입니다.

한 줄 요약:

"AI 가 비디오의 화질을 스스로 평가하게 해서, 흐린 영상에서도 내용을 정확하게 알아내게 만든 혁신적인 방법!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

비디오 분류의 품질 의존성: 비디오 분류 (Video Classification) 작업은 비디오의 화질에 크게 영향을 받습니다. 저화질 (흐림, 노이즈 등) 인 비디오는 고화질 비디오에 비해 분류 정확도가 현저히 떨어집니다. 예를 들어, 경도 인지 장애 (MCI) 를 판별하는 연구에서 고화질 비디오는 100% 정확도를 보인 반면, 저화질 비디오에서는 58.33% 로 급감했습니다.
화질 평가 (VQA) 라벨 부족: 비디오 분류 성능을 향상시키기 위해 비디오 화질 평가 (Video Quality Assessment, VQA) 를 도입하려는 시도가 있었으나, 대부분의 비디오 데이터셋에는 정답 라벨 (Ground Truth) 이 없는 화질 점수가 존재하지 않습니다.
기존 방법의 한계:
- 전통적 NR-VQA (No-Reference VQA): 주관적 평가 점수 (MOS) 를 기반으로 학습되는데, 데이터 수집 비용이 크고 시간이 많이 소요되어 대규모 데이터셋 적용이 어렵습니다.
- 단순 자기지도학습 (SSL) 적용의 어려움: 기존 SSL 기법 (Pretext Task 또는 Contrastive Learning) 은 화질 점수라는 회귀 (Regression) 타겟이 부재할 때, 분류 (Classification) 와 화질 평가를 동시에 최적화하는 데 한계가 있었습니다.

2. 제안 방법론: SSL-V3 (Methodology)

저자들은 Self-Supervised Learning 기반의 비디오 비전 트랜스포머 (ViViT) 와 무참조 VQA 를 결합한 모델인 SSL-V3를 제안했습니다. 이 모델의 핵심은 Combined-SSL 메커니즘입니다.

2.1 모델 아키텍처

Backbone: ViViT (Factorised Encoder, FE) 를 사용하여 시공간 (Spatio-Temporal) 특징을 효율적으로 추출합니다.
이중 브랜치 구조 (Dual Branch):
- 상위 브랜치: 입력 비디오 ( $X_1$ ) 를 처리하여 특징 맵 ( $f_{S1}$ ) 을 추출한 후, 분류 헤드 (CLS) 와 VQA 헤드 (VQA) 를 통해 예측값을 도출합니다.
- 하위 브랜치: 상위 브랜치와 가중치를 공유하며, 입력 비디오의 순서를 섞은 ( $X_2$ ) 데이터를 처리합니다.
VQA 헤드 (계층적 회귀 구조):
- Sequence Score Regressor (SSR): 프레임 단위가 아닌 시퀀스 단위의 특징을 기반으로 각 시퀀스의 화질 점수 (SQS) 를 가중치 학습을 통해 추정합니다.
- Video Score Regressor (VSR): 시퀀스 점수 벡터를 입력받아 시간적 운동 효과 (Temporal-motion) 와 시간적 잔류 효과 (Temporal-hysteresis) 를 고려하여 전체 비디오의 최종 화질 점수 (VQS) 를 회귀합니다.
Tune-CLS 모듈: 추정된 비디오 화질 점수 (VQS) 를 분류 예측값에 곱하여 가중치를 조정합니다. 화질이 좋은 클립은 신뢰도를 높이고, 나쁜 클립은 신뢰도를 낮추어 분류 결정에 반영합니다.

2.2 Combined-SSL 메커니즘 (핵심 혁신)

라벨이 없는 VQA 작업을 해결하기 위해 **연쇄 법칙 (Chain Rule)**과 **대조 학습 (Contrastive Learning)**을 결합했습니다.

연쇄 법칙 기반 최적화: VQS 는 분류 작업의 입력 변수로 사용됩니다. 분류 작업의 손실 함수 (Loss) 를 통해 역전파 (Back-propagation) 시 VQS 를 계산하는 VQA 파라미터도 함께 업데이트됩니다. 즉, 분류 (Downstream task) 가 VQA (Pretext task) 를 지도 (Supervise) 하는 역방향 학습이 가능해져 라벨 없이도 VQA 모델을 학습시킬 수 있습니다.
대조 학습 (Contrastive Learning): 동일한 비디오의 다른 변형 (Shuffled) 을 입력으로 받아 두 브랜치의 특징 벡터 간 거리를 최소화 (Positive Pair) 하거나 최대화 (Negative Pair) 함으로써 특징의 구분력을 높입니다. 이는 분류 및 VQA 성능을 동시에 향상시킵니다.

2.3 손실 함수 (CBS Loss)

Batch-level Loss: Focal Loss (클래스 불균형 해결) 와 Contrastive Loss (클래스 내 불균형 해결) 를 결합합니다.
Subject-level Loss: Binary Cross Entropy (BCE) 를 사용하여 피험자 (Subject) 단위로 예측 정확도를 집계하여 손실을 계산합니다.
최종 Loss: $L_{CBS} = FL + 0.5 \times CL + I \times 0.5 \times BCE$ (I 는 마지막 배치 여부).

3. 주요 기여 (Key Contributions)

Combined-SSL 프레임워크 제안: VQA 작업과 대조 학습 간의 상호 보완적 관계를 이론적으로 정립하여, 라벨이 부족한 환경에서도 객관적인 비디오 분류를 가능하게 했습니다.
SSL-V3 모델 개발: ViViT 백본에 VQA 헤드와 Tune-CLS 모듈을 통합한 새로운 아키텍처를 구현했습니다.
계층적 VQA 헤드 설계: 시퀀스 단위 (SSR) 와 비디오 전체 단위 (VSR) 를 계층적으로 회귀하는 구조를 통해 더 정밀한 화질 점수 추정을 가능하게 했습니다.
새로운 손실 함수 (CBS Loss): 배치 단위와 피험자 단위의 불균형을 동시에 해결하는 손실 함수를 설계하여 모델 수렴을 최적화했습니다.
실증적 유효성 검증: 의료 (MCI 진단) 및 감시 (폭력 탐지) 두 가지 다른 도메인에서 모델의 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

데이터셋:
- I-CONECT: 75 세 이상 노인의 경도 인지 장애 (MCI) 진단을 위한 인터뷰 비디오 데이터셋 (고화질 vs 저화질 문제 발생).
- Hockey Fight (HF): 아이스하키 경기 중 폭력 장면 탐지 데이터셋.
성능:
- I-CONECT (MCI 진단): SSL-V3(VQA 적용) 은 'School Subjects' 테마에서 **94.87%**의 정확도를 기록했습니다. 이는 VQA 를 적용하지 않은 경우 (87.80%) 보다 약 7% 이상 향상되었으며, 기존 최첨단 모델 (MC-ViViT 등) 보다도 우수한 성능을 보였습니다.
- HF (폭력 탐지): 평균 정확도 98.6% (STD 0.8) 를 달성하여, 폭력 탐지 분야에서 최상위권 성능을 보였습니다.
Ablation Study (성분 분석):
- VQA 헤드 제거 시 정확도가 8~12% 이상 하락하여 화질 점수 반영의 중요성을 입증했습니다.
- Contrastive Learning 을 제거하거나 손실 함수를 단순화할 경우 성능이 크게 저하되어, 제안된 Combined-SSL 구조와 CBS Loss 의 필수성을 확인했습니다.
- SSR 모듈이 VSR 모듈보다 특징 추출에 더 효과적이었으며, 두 모듈을 모두 사용할 때 최적의 성능을 보였습니다.

5. 의의 및 결론 (Significance)

라벨 부족 문제 해결: 비디오 화질 평가라는 라벨이 없는 작업을, 분류 작업과 결합된 자기지도학습 (Self-Supervised) 방식을 통해 해결한 획기적인 접근법입니다.
실용적 적용 가능성: 의료 진단 (MCI) 과 공공 안전 (폭력 탐지) 같이 화질 편차가 큰 실제 환경 (Wild datasets) 에서 모델의 강건성 (Robustness) 을 입증했습니다.
화질 인식의 중요성: 단순히 비디오 내용을 분석하는 것을 넘어, 화질 자체를 정량화하여 분류 신뢰도에 반영함으로써 딥러닝 모델의 의사결정 과정을 더 객관적이고 정확하게 만들었습니다.
미래 작업: 현재는 완전한 멀티태스크 모델로 간주하기 어렵지만 (VQS 라벨 부재), 향후 화질 라벨이 있는 공개 데이터셋을 통해 모델의 일반화 능력을 검증하고, 생성 모델을 활용한 비디오 노이즈 제거 (Denoising) 연구로 확장할 수 있음을 제시했습니다.

요약하자면, 이 논문은 비디오 화질이 분류 성능에 미치는 부정적 영향을 VQA 를 통해 보정하고, 라벨 부족 문제를 Combined-SSL 기법으로 해결함으로써 의료 및 감시 분야에서 높은 정확도의 비디오 분류 시스템을 구축한 성공적인 사례입니다.