UniComp: Rethinking Video Compression Through Informational Uniqueness

이 논문은 정보 이론적 관점에서 조건부 엔트로피를 최소화하는 '정보의 고유성 (Information Uniqueness)' 개념을 도입하여, 프레임 그룹 융합, 토큰 할당, 공간 동적 압축 모듈을 통해 제한된 계산 예산 하에서도 기존 방법보다 우수한 시각적 토큰 보존 성능을 달성하는 새로운 비디오 압축 프레임워크 'UniComp'를 제안합니다.

Chao Yuan, Shimin Chen, Minliang Lin, Limeng Qiao, Guanglu Wan, Lin Ma

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "비디오는 거대한 도서관"

비디오 한 편을 생각해보세요. 수백 장의 사진 (프레임) 이 빠르게 이어져 있는 거대한 도서관이라고 상상해 봅시다.

1. 기존 방법 (Attention 기반): "소란스러운 아이에게만 집중하기"

기존의 AI 들은 도서관에서 **가장 크게 소리 지르는 아이 (Attention 점수가 높은 것)**에게만 집중했습니다.

  • 문제점: 도서관에 아이들이 모두 "안녕하세요!"라고 동시에 외친다면, AI 는 모두 중요한 줄 알고 다 기억하려다 지쳐버립니다. 혹은, 같은 말을 반복하는 아이들 (중복된 정보) 을 모두 챙기느라, 조용하지만 새로운 정보를 알려주는 아이를 놓쳐버립니다.
  • 결과: 중요한 세부 사항 (예: 컵의 색깔, 글자) 을 놓치거나, 불필요한 정보로 메모리를 가득 채웁니다.

2. 새로운 방법 (UniComp): "독창적인 이야기꾼만 고르기"

이 논문이 제안한 UniComp는 "누가 가장 독특한 이야기를 하는가?"를 봅니다.

  • 핵심 아이디어: "이미 들은 이야기 (중복된 정보) 는 필요 없어. **처음 들어보는 새로운 이야기 (Information Uniqueness)**만 골라내자!"
  • 비유: 도서관에서 100 명의 아이들이 있는데, 90 명이 똑같은 "안녕하세요"를 반복하고, 10 명만 "오늘 하늘에 구름이 생겼어요"라는 새로운 말을 한다면? UniComp 는 그 10 명만 골라내서 책장에 꽂습니다. 반복되는 90 명은 한 줄로 요약해 버리죠.

🛠️ UniComp 가 사용하는 3 가지 마법 도구

UniComp 는 이 '독창성'을 찾아내기 위해 세 가지 단계를 거칩니다.

① 프레임 그룹 융합 (Frame Group Fusion): "같은 장면을 하나로 합치기"

  • 상황: 비디오에서 1 초 동안 카메라가 거의 움직이지 않는다고 칩시다. 30 장의 사진이 모두 똑같습니다.
  • 기존: 30 장을 다 따로따로 저장합니다.
  • UniComp: "이 30 장은 내용이 똑같네? 그냥 하나의 대표 사진으로 합쳐버리자!"라고 합니다.
  • 효과: 불필요한 시간적 중복을 제거합니다.

② 토큰 할당 (Token Allocation): "중요한 장면에 더 많은 메모리 주기"

  • 상황: 비디오 전체를 다룰 수 있는 메모리 (할당량) 가 정해져 있습니다.
  • UniComp: "이 장면은 내용이 독특하고 중요하니까 메모리를 많이 줘. 저 장면은 이미 다 봤던 내용이라 메모리를 적게 줘."라고 지능적으로 배분합니다.
  • 효과: 중요한 순간에는 고화질로, 반복되는 순간에는 저화질로 처리하여 전체적인 효율을 극대화합니다.

③ 공간적 동적 압축 (Spatial Dynamic Compression): "한 장면 안에서도 중복 제거하기"

  • 상황: 한 장의 사진 안에 하늘, 바다, 모래가 있는데, 하늘은 다 똑같은 파란색입니다.
  • UniComp: "하늘 부분은 다 똑같으니까 하나의 파란색 점으로 합쳐버리고, 바다와 모래처럼 **다른 색 (정보)**이 있는 부분만 자세히 남겨두자."
  • 효과: 한 프레임 안에서도 불필요한 정보를 과감히 잘라냅니다.

🏆 왜 이 방법이 더 좋은가요? (실제 결과)

논문의 실험 결과를 보면 놀라운 사실이 나옵니다.

  1. 적은 정보로도 더 잘 봅니다:

    • 보통 비디오를 압축하면 화질이 떨어지고 내용을 못 알아맞힙니다.
    • 하지만 UniComp 는 원본 데이터의 5% 만 남겼을 때도 (나머지 95% 는 버림), "이 차는 빨간색이야", "이 글자는 'BUD'야" 같은 중요한 정보를 정확히 알아맞힙니다.
    • 비유: 책의 95% 를 찢어 버려도, 핵심 줄거리와 결말만 남긴 책은 여전히 재미있게 읽을 수 있다는 뜻입니다.
  2. 빠르고 가볍습니다:

    • 기존 방법들은 복잡한 계산을 많이 해서 느렸는데, UniComp 는 4 배 이상 더 빠릅니다. (Time-To-First-Token 감소)
    • 비유: 무거운 짐을 다 싣고 가는 차 대신, 꼭 필요한 짐만 싣고 가는 스포츠카처럼 빠르고 민첩합니다.
  3. 누구나 쓸 수 있습니다:

    • 복잡한 설정이 필요 없습니다. 마치 **플러그인 (Plug-and-play)**처럼 다른 모델에 바로 끼워 쓸 수 있습니다.

💡 한 줄 요약

"기존의 AI 는 '소란스러운 것'을 쫓다가 중요한 것을 놓쳤다면, UniComp 는 '새롭고 독특한 것'만 골라내어, 적은 정보로도 비디오의 핵심을 완벽하게 이해하게 해줍니다."

이 기술은 앞으로 긴 영상을 실시간으로 분석하거나, 스마트폰에서 고화질 비디오를 빠르게 처리할 때 큰 혁신이 될 것입니다.