Geometric Transformation-Embedded Mamba for Learned Video Compression

이 논문은 명시적인 운동 추정 없이 비선형 변환과 엔트로피 코딩을 기반으로 하며, 기하학적 변환이 내장된 캐스케이드 Mamba 모듈과 국소성 정제 피드포워드 네트워크를 활용하여 저비트레이트 환경에서 기존 방법보다 우수한 화질과 시간적 일관성을 달성하는 새로운 비디오 압축 프레임워크를 제안합니다.

Hao Wei, Yanhui Zhou, Chenyang Ge

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 1. 문제점: 기존 방식은 너무 복잡해요 (기존 하이브리드 방식)

지금까지 비디오를 압축할 때는 주로 **'비교하고 수정하는 방식'**을 썼습니다.

  • 비유: 여행 가방에 옷을 넣을 때, "어제 입었던 옷 (이전 프레임) 과 오늘 입는 옷 (현재 프레임) 을 비교해봐. 비슷하면 '비슷함'이라고만 적고, 다르면 '다른 부분'만 따로 적어라"라고 하는 방식입니다.
  • 단점: 이 방법은 옷을 비교하고, 차이를 계산하고, 그 차이를 다시 포장하는 과정이 너무 복잡하고 번거롭습니다. (논문에서는 이를 '복잡한 운동 추정 및 보상'이라고 부릅니다.)

✨ 2. 새로운 해결책: "직접 변형하는 마법" (변환 기반 방식)

이 연구팀은 "비교할 필요 없이, 옷 자체를 더 작게 접는 마법을 쓰자"고 제안합니다.

  • 비유: 옷을 비교하지 않고, 옷의 모양을 변형해서 (비틀거나 접어서) 가장 작게 만드는 기술입니다. 이렇게 하면 불필요한 비교 과정이 사라져서 훨씬 깔끔하고 효율적입니다.

🚀 3. 핵심 기술 3 가지 (이 마법의 도구들)

이 연구팀은 이 '직접 변형 마법'을 더 강력하게 만들기 위해 세 가지 도구를 개발했습니다.

CMM (계단식 Mamba 모듈): "시간과 공간을 동시에 훑어보는 스캐너"

  • 상황: 비디오는 '공간 (화면)'과 '시간 (흐름)'이 모두 중요합니다.
  • 비유: 기존 방식은 앞만 보고 걷거나, 옆만 보고 걷는 식이었습니다. 하지만 이 Mamba앞, 뒤, 위, 아래, 시간의 흐름까지 4 가지 방향으로 동시에 훑어보는 스캐너입니다.
  • 효과: "아, 저기 저 구름이 3 초 전에 저기 있었구나"라고 먼 과거의 정보까지 기억하면서 옷을 접기 때문에, 훨씬 더 많은 정보를 적은 공간에 담을 수 있습니다.

LRFFN (국소 정제 네트워크): "세밀한 주름 잡는 기술"

  • 상황: 큰 흐름은 잡았지만, 옷의 작은 주름이나 질감 같은 '세부 사항'은 놓치기 쉽습니다.
  • 비유: 큰 옷을 접은 후, 작은 구석구석의 주름을 펴거나 다듬는 기술입니다. 특히 '차이 회로 (Difference Convolution)'를 써서, 옷의 색이 아닌 '무늬의 변화'만 집중해서 잡습니다.
  • 효과: 복잡한 무늬나 작은 디테일 (예: 가로등, 다리 구조) 이 흐릿해지지 않고 선명하게 남습니다.

조건부 엔트로피 모델: "미래를 예측하는 똑똑한 포장사"

  • 상황: 옷을 포장할 때, "다음에 어떤 옷이 나올지"를 미리 알면 더 잘 포장할 수 있습니다.
  • 비유: 기존 방식은 "어제 입었던 옷"만 보고 다음 옷을 짐작했습니다. 하지만 이 연구팀은 **"어제 입었던 옷" + "지금 입고 있는 옷의 움직임 (가상 정보)"**을 함께 봅니다.
  • 효과: 마치 "다음에 저 옷은 이렇게 움직일 거야"라고 미리 예측해서, 필요한 정보량을 최소화하고 압축 효율을 극대화합니다.

🏆 4. 결과: 왜 이 방식이 더 좋은가요?

실험 결과, 이 새로운 방식은 데이터 양 (비트레이트) 이 적을 때 특히 빛을 발했습니다.

  • 화질: 기존 방식은 화질을 줄이면 흐릿해지거나 찌그러지지만, 이 방식은 작은 파일 크기에서도 선명한 디테일을 유지합니다. (가로등이나 다리의 구조가 잘 살아남음)
  • 자연스러움: 비디오가 움직일 때 끊기거나 깜빡이는 현상 (시간적 일관성) 이 훨씬 자연스럽습니다.
  • 간단함: 복잡한 비교 과정이 없어서 시스템이 더 간결해졌습니다.

💡 요약

이 논문은 **"비디오를 압축할 때, 서로 비교해서 차이를 찾는 번거로운 방법 대신, Mamba 라는 똑똑한 AI 가 시간과 공간을 자유롭게 넘나들며 옷을 가장 작게 접는 새로운 방식을 제안했다"**는 내용입니다.

저용량 환경에서도 화질이 뛰어나고 자연스러운 비디오를 만들고 싶다면, 이 기술이 정답에 한 걸음 더 다가섰다고 볼 수 있습니다.