UniComp: Rethinking Video Compression Through Informational Uniqueness

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "비디오는 거대한 도서관"

비디오 한 편을 생각해보세요. 수백 장의 사진 (프레임) 이 빠르게 이어져 있는 거대한 도서관이라고 상상해 봅시다.

1. 기존 방법 (Attention 기반): "소란스러운 아이에게만 집중하기"

기존의 AI 들은 도서관에서 **가장 크게 소리 지르는 아이 (Attention 점수가 높은 것)**에게만 집중했습니다.

문제점: 도서관에 아이들이 모두 "안녕하세요!"라고 동시에 외친다면, AI 는 모두 중요한 줄 알고 다 기억하려다 지쳐버립니다. 혹은, 같은 말을 반복하는 아이들 (중복된 정보) 을 모두 챙기느라, 조용하지만 새로운 정보를 알려주는 아이를 놓쳐버립니다.
결과: 중요한 세부 사항 (예: 컵의 색깔, 글자) 을 놓치거나, 불필요한 정보로 메모리를 가득 채웁니다.

2. 새로운 방법 (UniComp): "독창적인 이야기꾼만 고르기"

이 논문이 제안한 UniComp는 "누가 가장 독특한 이야기를 하는가?"를 봅니다.

핵심 아이디어: "이미 들은 이야기 (중복된 정보) 는 필요 없어. **처음 들어보는 새로운 이야기 (Information Uniqueness)**만 골라내자!"
비유: 도서관에서 100 명의 아이들이 있는데, 90 명이 똑같은 "안녕하세요"를 반복하고, 10 명만 "오늘 하늘에 구름이 생겼어요"라는 새로운 말을 한다면? UniComp 는 그 10 명만 골라내서 책장에 꽂습니다. 반복되는 90 명은 한 줄로 요약해 버리죠.

🛠️ UniComp 가 사용하는 3 가지 마법 도구

UniComp 는 이 '독창성'을 찾아내기 위해 세 가지 단계를 거칩니다.

① 프레임 그룹 융합 (Frame Group Fusion): "같은 장면을 하나로 합치기"

상황: 비디오에서 1 초 동안 카메라가 거의 움직이지 않는다고 칩시다. 30 장의 사진이 모두 똑같습니다.
기존: 30 장을 다 따로따로 저장합니다.
UniComp: "이 30 장은 내용이 똑같네? 그냥 하나의 대표 사진으로 합쳐버리자!"라고 합니다.
효과: 불필요한 시간적 중복을 제거합니다.

② 토큰 할당 (Token Allocation): "중요한 장면에 더 많은 메모리 주기"

상황: 비디오 전체를 다룰 수 있는 메모리 (할당량) 가 정해져 있습니다.
UniComp: "이 장면은 내용이 독특하고 중요하니까 메모리를 많이 줘. 저 장면은 이미 다 봤던 내용이라 메모리를 적게 줘."라고 지능적으로 배분합니다.
효과: 중요한 순간에는 고화질로, 반복되는 순간에는 저화질로 처리하여 전체적인 효율을 극대화합니다.

③ 공간적 동적 압축 (Spatial Dynamic Compression): "한 장면 안에서도 중복 제거하기"

상황: 한 장의 사진 안에 하늘, 바다, 모래가 있는데, 하늘은 다 똑같은 파란색입니다.
UniComp: "하늘 부분은 다 똑같으니까 하나의 파란색 점으로 합쳐버리고, 바다와 모래처럼 **다른 색 (정보)**이 있는 부분만 자세히 남겨두자."
효과: 한 프레임 안에서도 불필요한 정보를 과감히 잘라냅니다.

🏆 왜 이 방법이 더 좋은가요? (실제 결과)

논문의 실험 결과를 보면 놀라운 사실이 나옵니다.

적은 정보로도 더 잘 봅니다:
- 보통 비디오를 압축하면 화질이 떨어지고 내용을 못 알아맞힙니다.
- 하지만 UniComp 는 원본 데이터의 5% 만 남겼을 때도 (나머지 95% 는 버림), "이 차는 빨간색이야", "이 글자는 'BUD'야" 같은 중요한 정보를 정확히 알아맞힙니다.
- 비유: 책의 95% 를 찢어 버려도, 핵심 줄거리와 결말만 남긴 책은 여전히 재미있게 읽을 수 있다는 뜻입니다.
빠르고 가볍습니다:
- 기존 방법들은 복잡한 계산을 많이 해서 느렸는데, UniComp 는 4 배 이상 더 빠릅니다. (Time-To-First-Token 감소)
- 비유: 무거운 짐을 다 싣고 가는 차 대신, 꼭 필요한 짐만 싣고 가는 스포츠카처럼 빠르고 민첩합니다.
누구나 쓸 수 있습니다:
- 복잡한 설정이 필요 없습니다. 마치 **플러그인 (Plug-and-play)**처럼 다른 모델에 바로 끼워 쓸 수 있습니다.

💡 한 줄 요약

"기존의 AI 는 '소란스러운 것'을 쫓다가 중요한 것을 놓쳤다면, UniComp 는 '새롭고 독특한 것'만 골라내어, 적은 정보로도 비디오의 핵심을 완벽하게 이해하게 해줍니다."

이 기술은 앞으로 긴 영상을 실시간으로 분석하거나, 스마트폰에서 고화질 비디오를 빠르게 처리할 때 큰 혁신이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

멀티모달 대규모 언어 모델 (MLLM) 의 발전으로 비디오 이해 능력이 향상되었으나, 고해상도 및 장시간 비디오를 처리할 때 발생하는 계산 비용의 폭발적 증가가 주요 병목 현상이 되었습니다. 기존 비디오 압축 방법들은 주로 어텐션 (Attention) 기반의 중요도 점수를 활용하여 토큰을 선택하거나 제거하는 방식을 취했습니다.

기존 방법의 한계:
- 중복성 (Redundancy) 과 중요도 (Saliency) 의 혼동: 어텐션 기반 방법은 눈에 띄는 (salient) 콘텐츠를 강조하지만, 프레임 간 또는 토큰 간에 존재하는 정보적 중복성을 충분히 제거하지 못하거나, 오히려 중복된 정보를 과도하게 유지할 수 있습니다.
- 세부 정보 손실: 공격적인 압축 설정 하에서 필수적인 미세한 세부 정보가 손실될 위험이 큽니다.
- 복잡한 하이퍼파라미터 및 모델 의존성: 많은 SOTA(최첨단) 방법들이 5 개 이상의 하이퍼파라미터 튜닝이 필요하거나, 어텐션 레이어를 수정하는 등 모델 아키텍처에 종속적이어서 다른 모델로의 적용 (Generalization) 이 어렵습니다.

2. 방법론 (Methodology)

이 논문은 **"어텐션"이 아닌 "정보의 고유성 (Informational Uniqueness)"**을 비디오 압축의 핵심 원리로 제시합니다. 중복되거나 다른 토큰으로부터 재구성 가능한 정보는 제거하고, 고유하고 대체 불가능한 정보만 남기는 전략을 취합니다.

2.1. 이론적 기반: 정보 고유성 (Information Uniqueness)

정의: 토큰 $x_i$ 와 $x_j$ 간의 고유성 $u_{ij}$ 는 두 토큰의 코사인 유사도를 기반으로 정의됩니다 ( $u_{ij} = 1 - \text{cosine\_similarity}$ ).
최적화 목표: 압축된 토큰 집합 $S$ 와 전체 토큰 집합 $X$ 사이의 조건부 엔트로피 $H(X|S)$ 를 최소화하는 것입니다. 이는 재구성 오차를 최소화하는 것과 동치이며, 정보 이론적으로 재구성 오차의 상한선 (Upper Bound) 이 고유성과 직접적으로 연결됨을 수학적으로 증명했습니다. 즉, 버려진 토큰의 고유성이 높을수록 재구성 오차가 커지므로, 고유성이 높은 토큰을 우선적으로 선택해야 합니다.

2.2. UniComp 프레임워크의 3 단계 모듈

UniComp 는 세 가지 시너지 모듈로 구성되어 시간적, 공간적, 전역적 차원에서 중복성을 제거합니다.

프레임 그룹 퓨전 (Frame Group Fusion, FGF):
- 목적: 시간적 중복성 제거.
- 작동: 연속된 프레임 간의 고유성 점수를 계산하여, 의미적으로 유사한 프레임들을 그룹화하고 평균 풀링 (Mean Pooling) 을 통해 하나의 대표 토큰으로 융합합니다. 장면이 안정적이면 많은 프레임을 병합하고, 장면 전환이 빈번하면 세분화하여 중요한 동적 정보를 보존합니다.
토큰 할당 (Token Allocation, TA):
- 목적: 전역적 자원 배분.
- 작동: 각 프레임의 전역 고유성 (Global Uniqueness) 을 기반으로 토큰 예산 (Budget) 을 동적으로 할당합니다. 고유성이 높은 프레임 (다른 프레임과 다른 중요한 정보를 가진 경우) 에는 더 많은 토큰을 할당하고, 중복성이 높은 프레임에는 적은 토큰을 할당합니다.
공간적 동적 압축 (Spatial Dynamic Compression, SDC):
- 목적: 프레임 내 공간적 중복성 제거.
- 작동: 각 프레임 내에서 토큰 수준의 고유성을 계산합니다. 고유성이 낮은 (중복된) 토큰들을 식별하여, 인접한 토큰들과 **퓨전 (Fusion)**하거나 제거합니다. 이는 그래프 기반의 탐욕적 (Greedy) 선택 전략으로, 정보 밀도가 높은 토큰만 남깁니다.

3. 주요 기여 (Key Contributions)

정보 이론적 관점의 전환: 어텐션 기반이 아닌 조건부 엔트로피 최소화를 통해 정보 압축을 공식화하고, '정보 고유성' 개념을 도입하여 특징의 중복성을 정량화했습니다.
UniComp 프레임워크 제안: 시간적 퓨전 (FGF), 전역 할당 (TA), 공간적 압축 (SDC) 을 통합한 단일 원칙 (유일성 유지) 기반의 압축 프레임워크를 개발했습니다.
높은 일반화 능력 (Plug-and-Play):
- 仅需 2 개의 하이퍼파라미터 ( $U_f, U_c$ ) 만으로 작동하며, 기본 설정이 다양한 ViT 및 LLM 아키텍처에 적용 가능합니다.
- 내부 LLM 레이어를 수정하지 않아 (Inner-LLM modification-free) 다른 모델에 쉽게 배포할 수 있습니다.
SOTA 성능 달성: 다양한 장시간 비디오 이해 벤치마크에서 기존 방법들을 일관되게 능가하며, 제한된 계산 예산 하에서도 우수한 의미적 충실도 (Semantic Fidelity) 를 유지합니다.

4. 실험 결과 (Results)

벤치마크: LongVideoBench, EgoSchema, MLVU, VideoMME 등 4 가지 주요 장시간 비디오 이해 벤치마크에서 평가되었습니다.
성능:
- 압축 비율별 성능: 25%, 20%, 15%, 10% 의 토큰 유지 비율에서 기존 SOTA 방법들 (VisionZip, HoliTom, FastVid 등) 보다 평균 정확도가 높았습니다. 특히 10% 유지 비율에서도 압축되지 않은 전체 토큰 (Vanilla) 기반 모델의 성능을 거의 따라잡거나 능가하는 결과를 보였습니다.
- 프레임 수 확장성: 입력 프레임을 32 개에서 320 개로 늘렸을 때 (동일한 토큰 제한 조건), UniComp 는 성능 저하 없이 일관된 높은 정확도를 유지했습니다. 반면, 기존 방법들은 시간적 중복성으로 인해 성능이 급격히 하락했습니다.
- 모델 일반화: LLaVA-OneVision, LLaVA-Video, Eagle2.5 등 다양한 아키텍처에서 동일한 하이퍼파라미터 설정으로 우수한 성능을 입증했습니다.
효율성:
- TTFT (Time-To-First-Token): 320 프레임 입력 시, 전체 토큰 처리 대비 약 4.15 배 빠른 추론 속도를 달성했습니다.
- 자동 압축: 사전 설정된 비율 없이도 비디오의 정보 중복도에 따라 자동으로 압축 비율을 조절하여 (최대 98% 이상 압축) 효율성을 극대화할 수 있음을 보였습니다.

5. 의의 및 결론 (Significance)

UniComp 는 비디오 압축의 패러다임을 '어텐션 기반의 중요도'에서 **'정보의 고유성'**으로 전환시켰습니다. 이는 계산 자원이 제한된 환경에서도 비디오의 핵심 정보를 손실 없이 보존할 수 있는 이론적 토대를 마련했습니다.

실용성: 복잡한 튜닝 없이 다양한 모델에 바로 적용 가능한 'Plug-and-Play' 솔루션으로, 장시간 비디오 처리를 위한 멀티모달 모델의 확장성 (Scalability) 문제를 해결합니다.
미래 전망: 정보 이론적 접근법을 통해 생성된 이 프레임워크는 향후 더 효율적인 멀티모달 시스템 설계의 기준이 될 것으로 기대됩니다.

요약하자면, UniComp는 불필요한 중복 정보를 과감히 제거하고 고유한 정보에만 자원을 집중함으로써, 압축된 상태에서도 원본과 유사한 이해 능력을 유지하는 차세대 비디오 압축 기술입니다.