VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

이 논문은 복잡한 추적 모듈 없이 ViT 인코더만으로도 실시간 비디오 분할이 가능하도록, 이전 프레임의 쿼리를 재사용하고 새로운 쿼리와 융합하는 경량 메커니즘을 도입한 'VidEoMT'를 제안하여 기존 모델 대비 5~10 배 빠른 속도와 경쟁력 있는 정확도를 달성했다고 요약할 수 있습니다.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 비디오 segmentation 의 비밀: "ViT 가 사실은 추적자였다?"

이 논문은 **"비디오 속 사물을 잘라내고 (분할), 그 사물이 다음 장면에서도 같은 사물인지 추적하는 작업"**을 훨씬 더 간단하고 빠르게 할 수 있는 새로운 방법, VidEoMT를 소개합니다.

기존의 복잡한 방법들을 버리고, **"단순함의 힘"**으로 승부한 이야기입니다.


1. 기존 방식: "정교한 공장"의 문제점

기존의 비디오 분할 모델들은 마치 거대한 공장처럼 작동했습니다.

  • 분할 담당자 (Segmenter): 한 장의 사진에 있는 사물을 찾아서 잘라냅니다.
  • 추적 담당자 (Tracker): "어, 저 사물이 다음 장면에서도 같은 사물일까?"라고 고민하며 복잡한 수학적 계산과 추가 장치를 동원해 사물을 쫓아다닙니다.
  • 문제점: 이 두 담당자가 서로 다른 부서에서 일하며, 그 사이를 연결하는 **복잡한 컨베이어 벨트 (추적 모듈)**가 필요했습니다. 덕분에 정확도는 높았지만, 속도가 매우 느리고 컴퓨터 자원을 많이 잡아먹었습니다.

2. 새로운 아이디어: "한 명으로 모든 일을 해결하라"

저자들은 의문을 가졌습니다. "과연 이렇게 복잡한 공장이 정말 필요할까?"
그들은 거대하게 훈련된 **ViT(Vision Transformer)**라는 AI 모델을 주목했습니다. 이 모델은 수많은 이미지로 미리 학습되어 있어, 사물을 보는 눈이 매우 예리합니다.

저자는 **"이 예리한 눈만 있으면, 추적 담당자까지 겸할 수 있지 않을까?"**라고 생각했습니다.

3. VidEoMT 의 핵심 비법: "메모리 카드"와 "새로운 친구"

VidEoMT 는 복잡한 공장 장비를 다 치우고, 단 하나의 ViT 모델만 남겼습니다. 그런데 어떻게 추적은 할까요? 두 가지 간단한 비법이 있습니다.

🧩 비법 1: "메모리 카드 전달 (Query Propagation)"

  • 상황: 이전 장면에서 '고양이'를 봤다면, 다음 장면에서도 그 고양이를 기억해야 합니다.
  • 기존 방식: 복잡한 추적기를 통해 고양이의 특징을 분석하고 다음 장면으로 보내는 과정이 필요했습니다.
  • VidEoMT 방식: "이전 장면에서 본 고양이 정보를 (질문 형태인 Query) 바로 다음 장면으로 쏙 전달합니다."
    • 마치 메모리 카드를 다음 장면에 꽂아주는 것처럼, 이전의 정보가 그대로 흘러가서 "아, 이 고양이는 계속 여기 있구나"라고 자연스럽게 인식하게 합니다.

🆕 비법 2: "새로운 친구 초대 (Query Fusion)"

  • 문제: 만약 메모리 카드만 전달하면, **새로 등장한 사물 (예: 갑자기 튀어 나온 개)**은 어떻게 찾을 수 있을까요?
  • VidEoMT 방식: 전달된 정보 (이전 장면의 고양이) 에 **새로운 친구들을 찾을 수 있는 '학습된 질문 (Learnable Queries)'**을 섞어줍니다.
    • "이전 고양이는 기억하고, 새로운 개도 찾아보자!"
    • 이 두 가지를 섞어서 (Fusion) ViT 에 넣으면, ViT 는 과거의 기억과 새로운 발견을 동시에 처리할 수 있게 됩니다.

4. 결과: "스피드 레이스"에서 압도적 승리

이 간단한 구조가 얼마나 강력한지 실험 결과로 증명했습니다.

  • 속도: 기존 최고 성능 모델 (CAVIS) 보다 5 배에서 10 배 더 빠릅니다.
    • 기존 모델이 초당 15 장을 처리했다면, VidEoMT 는 초당 160 장을 처리합니다! (영화 한 장을 보는 동안 10 장 이상의 장면을 분석하는 속도)
  • 정확도: 속도가 10 배 빨라졌는데, 정확도는 거의 떨어지지 않았습니다. 오히려 일부 기준에서는 더 좋기도 했습니다.
  • 비유: 기존 방식이 고급 스포츠카라면, VidEoMT 는 경량 레이싱 카입니다. 엔진 (ViT) 만 믿고 불필요한 장비를 다 떼어냈더니, 오히려 더 빠르고 효율적이게 되었습니다.

5. 결론: "복잡함은 더 이상 필수불가결하지 않다"

이 논문의 핵심 메시지는 **"거대하고 잘 훈련된 AI 모델 (ViT) 이라면, 복잡한 추가 장치 없이도 비디오 속 사물을 잘라내고 추적할 수 있다"**는 것입니다.

  • 과거: "추적을 하려면 복잡한 추적기가 필요하다."
  • 현재 (VidEoMT): "아니, 그냥 잘 훈련된 AI 가 기억력을 발휘하면 추적도 자연스럽게 된다."

이 기술은 실시간 비디오 분석, 자율 주행, 스마트폰 앱 등 빠른 처리가 필요한 모든 분야에 혁신을 가져올 것으로 기대됩니다.


한 줄 요약:

복잡한 추적 장비를 다 버리고, "기억력"이 뛰어난 AI 하나만 남겼더니, 비디오 분할이 10 배 빨라졌고 정확도도 그대로 유지되었다! 🚀🐱🐶