Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

이 논문은 비디오 품질 평가 (VQA) 와 비디오 분류를 결합한 자기지도학습 기반의 비디오 비전 트랜스포머 (SSL-V3) 를 제안하여, 비디오 품질 저하로 인한 분류 성능 감소를 해결하고 데이터셋의 레이블 부족 문제를 극복하는 새로운 접근법을 제시합니다.

Jian Sun, Mohammad H. Mahoor

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 핵심 아이디어: "AI 에게 '화질 점수'를 알려주자!"

상상해 보세요. 여러분이 친구에게 "저기 있는 사람이 누구야?"라고 물었는데, 친구가 흐릿하게 찍힌 사진을 보고 "모르겠어"라고 대답했다고 칩시다. 하지만 선명한 사진을 보여주면 바로 "아, 그 사람은 김철수야!"라고 맞춥니다.

지금까지의 AI(컴퓨터) 도 비슷했습니다. 비디오가 흐리거나 흔들리면, AI 는 내용을 제대로 분류하지 못했습니다. 이 논문은 **"AI 가 비디오를 볼 때, 먼저 '이 비디오가 얼마나 선명한지' 점수를 매겨보게 하자"**고 제안합니다.

🛠️ 해결책: 'SSL-V3'라는 새로운 AI 시스템

연구자들은 SSL-V3라는 새로운 시스템을 만들었습니다. 이 시스템은 두 가지 일을 동시에 합니다.

  1. 비디오 내용을 분류하는 일 (예: 이 사람은 치매가 있는가? 아니면 건강한가?)
  2. 비디오 화질을 평가하는 일 (예: 이 영상은 선명한가? 흐린가?)

여기서 가장 재미있는 점은, 화질 점수를 직접적으로 가르쳐 주지 않아도 된다는 것입니다. 보통 화질을 평가하려면 사람이 일일이 "이건 10 점, 저건 5 점"이라고 표시해 줘야 하는데, 그건 너무 힘들고 비용이 많이 듭니다.

🧩 어떻게 작동할까? (비유로 설명)

이 시스템은 마치 **"쌍둥이 형제"**가 함께 공부하는 것과 같습니다.

  • 형제 A (상위 가지): 비디오를 보고 "이건 치매 환자인가?"라고 추측합니다.
  • 형제 B (하위 가지): 같은 비디오를 조금 다르게 변형해서 보고, 형제 A 와 같은 추측을 합니다.

이때 두 형제가 서로의 답을 비교합니다. 만약 두 형제가 같은 결론에 도달했다면, 그 비디오는 화질이 좋아서 확실한 답이 나온 것입니다. 하지만 두 형제가 서로 다른 답을 내놓았다면, 비디오가 흐려서 혼란이 생긴 것입니다.

이 과정을 통해 AI 는 **스스로 "아, 이 비디오는 화질이 나빠서 답을 확신할 수 없구나"**라고 깨닫게 됩니다. 그리고 이 깨달음 (화질 점수) 을 이용해 **"화질이 나쁜 비디오의 답은 조금 덜 믿고, 화질이 좋은 비디오의 답은 더 믿어라"**라고 스스로 학습 규칙을 바꿉니다.

이를 논문에서는 **'연쇄 법칙 (Chain Rule)'**이라고 부르는데, 쉽게 말해 **"화질 평가가 분류를 도와주고, 분류 결과가 다시 화질 평가를 가르쳐 주는 선순환"**을 만드는 것입니다.

🏥 실제로 어떤 효과가 있을까?

연구자들은 이 시스템을 두 가지 분야에서 시험해 보았습니다.

  1. 치매 (MCI) 진단: 노인들의 인터뷰 영상을 분석했습니다. 흐린 영상에서도 AI 가 훨씬 정확하게 치매 여부를 판단할 수 있게 되었습니다. (정확도 94.87% 달성!)
  2. 하키 경기 폭력 탐지: 하키 경기 중 싸움이 일어나는 영상을 분석했습니다. 빠른 동작으로 인해 영상이 흐려져도 폭력 장면을 잘 찾아냈습니다.

💡 결론: 왜 이 연구가 중요할까?

이 연구의 핵심은 **"비디오의 화질이라는 숨겨진 요소를 AI 가 스스로 감지해서 학습에 활용했다"**는 점입니다.

기존에는 화질이 나쁜 영상을 그냥 버리거나, 화질을 개선하는 복잡한 작업을 거쳐야 했지만, 이 방법은 화질 점수라는 '비밀 무기'를 AI 내부에서 자동으로 만들어내어 성능을 획기적으로 높였습니다.

마치 안경을 쓴 사람이 흐린 안경으로 세상을 볼 때, 안경이 얼마나 흐린지 스스로 인지하고 뇌가 그 흐림을 보정해 주는 것과 같습니다. 덕분에 흐린 영상에서도 AI 는 더 똑똑하고 정확한 판단을 내릴 수 있게 된 것입니다.


한 줄 요약:

"AI 가 비디오의 화질을 스스로 평가하게 해서, 흐린 영상에서도 내용을 정확하게 알아내게 만든 혁신적인 방법!"